Working with offline store


title: “处理离线存储” weight: 3


本笔记本将演示如何从不同的特征组中检索已摄入的特征,并将它们组合以构建可用于训练机器学习模型的特征集。

注意:本模块依赖于在模块1 中准备的数据集和创建的特征组。

关键要点

  • 离线特征存储由S3支持,其中历史数据以年/月/日/小时分区的parquet文件形式存储。我们使用Athena查询来查询这个离线特征存储。Feature Store在创建特征组时会自动构建AWS Glue数据目录,您可以在特征组创建期间关闭它们。

  • 我们还将看到另一种使用SageMaker SDK以编程方式执行Athena查询的方法。

  • 我们提取此数据集的一个子集用于训练模型,并将该数据持久化到S3。

  • 然后,我们执行一些可选操作来探索和可视化parquet文件的样本。

导航到笔记本

  • 导航到主目录amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab目录结构。然后导航到02-module-working-with-offline-store并打开笔记本m2_nb1_feature_store_dataset_extraction.ipynb

  • 将内核设置为Python 3 (Data Science)并选择实例为ml.m5.4xlarge

  • 通过在每个单元格中按Shift+Enter来执行单元格。代码运行时,方括号之间会出现*。几秒钟后,代码执行将完成,*将被替换为一个数字。

  • 您可以按照笔记本中的说明继续操作。