title: “处理离线存储” weight: 3
本笔记本将演示如何从不同的特征组中检索已摄入的特征,并将它们组合以构建可用于训练机器学习模型的特征集。
注意:本模块依赖于在模块1 中准备的数据集和创建的特征组。
离线特征存储由S3支持,其中历史数据以年/月/日/小时分区的parquet文件形式存储。我们使用Athena查询来查询这个离线特征存储。Feature Store在创建特征组时会自动构建AWS Glue数据目录,您可以在特征组创建期间关闭它们。
我们还将看到另一种使用SageMaker SDK以编程方式执行Athena查询的方法。
我们提取此数据集的一个子集用于训练模型,并将该数据持久化到S3。
然后,我们执行一些可选操作来探索和可视化parquet文件的样本。
导航到主目录amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab目录结构。然后导航到02-module-working-with-offline-store并打开笔记本m2_nb1_feature_store_dataset_extraction.ipynb
将内核设置为Python 3 (Data Science)并选择实例为ml.m5.4xlarge
通过在每个单元格中按Shift+Enter来执行单元格。代码运行时,方括号之间会出现*。几秒钟后,代码执行将完成,*将被替换为一个数字。
您可以按照笔记本中的说明继续操作。