title: “使用Data Wrangler进行特征提取” weight: 54
本笔记本创建一个特征组,使用SageMaker Processing Job执行您的Data Wrangler Flow orders.flow,对整个数据集进行处理,并将结果特征输入到Feature Store中。
我们使用orders csv数据并为其创建一个新的特征组。
我们创建一个data wrangler流程来从S3读取数据并应用转换。
然后,我们配置SageMaker Processing作业,该作业将DataWrangler .flow作为输入,并在整个数据集上执行工作流,将特征存储到feature store中。处理作业使用在ECR中可用的sagemaker-data-wrangler docker镜像。
导航到主目录amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab目录结构。然后导航到05-module-scalable-batch-ingestion并打开笔记本m5_nb3_sm_data_wrangler.ipynb
将内核设置为Python 3 (Data Science),并选择实例为ml.t3.medium
通过在每个单元格中按Shift+Enter来执行单元格。代码运行时,方括号之间会出现一个*。几秒钟后,代码执行将完成,*将被替换为一个数字。
您可以按照笔记本中的说明继续操作。