title: “模块 6: 自动化流水线” weight: 7
本笔记本向您展示如何创建一个 SageMaker 模型构建流水线 以及一个 AWS Lambda 函数,以自动化特征转换和摄入 Feature Store 的过程,这些过程由上传到 S3 的新数据文件触发。它假设您已经创建了一个 Data Wrangler .flow 文件,这是在本工作坊的模块 5 中完成的。我们可以使用 SageMaker Pipeline 创建端到端工作流,以管理和部署 Sagemaker 作业。
注意:本模块依赖于模块 1 中准备的数据集以及模块 5 中创建的 data wrangler 流。
我们使用 SageMaker 处理作业从存储在 Amazon S3 中的 Data Wrangler .flow 文件创建一个 SageMaker Pipeline,该作业执行 .flow 文件中包含的转换,然后将转换后的特征存储在 Amazon SageMaker Feature Store 中
我们创建并部署一个 Lambda 函数,该函数在每次有新数据上传到 S3 时触发,更新 .flow 文件以引用新数据集,并使用新的 .flow 文件触发 SageMaker Pipeline。
我们将使用示例数据测试整个设置。
导航到主目录 amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab 目录结构。然后导航到 06-module-automated-pipeline 并打开笔记本 m6_nb1_automating-feature-transformation-pipeline.ipynb
将内核设置为 Python 3 (Data Science) 并选择实例为 ml.t3.medium
通过在每个单元格中按 Shift+Enter 来执行单元格。当代码运行时,方括号之间会出现一个 。几秒钟后,代码执行将完成, 将被替换为一个数字。
您可以按照笔记本中的说明继续操作。
有关使用 Amazon SageMaker 自动化特征转换的全面演示,请参阅这篇博客文章 。它解释了如何使用 Amazon SageMaker Data Wrangler 进行特征转换,Amazon SageMaker Feature Store 存储这些特征,以及 Amazon SageMaker Pipelines 自动转换所有未来数据。