title: “模块5:可扩展批量摄取” weight: 6
在本模块中,我们将演示将特征批量摄取到特征存储的不同方法。我们将探索三种方法 - 使用PySpark处理器的Amazon SageMaker Processing、使用scikit-learn处理器的Amazon SageMaker Processing以及Data Wrangler,以转换我们的订单数据并摄取到特征存储中。
Amazon SageMaker Processing为我们提供了在SageMaker上运行数据处理工作负载以进行数据和特征工程的简化管理体验。Amazon SageMaker Processing启动一个处理容器,该容器接收我们提供的用于数据和特征工程的脚本。该脚本可以是scikit-learn或pyspark脚本。容器可以是SageMaker内置的Docker镜像或自定义镜像。SageMaker负责提供运行作业所需的计算资源,并在作业完成后清理这些资源。
Amazon SageMaker Data Wrangler是SageMaker Studio的一项功能,允许我们导入、准备、转换和分析数据。我们可以将Data Wrangler数据流集成到我们的机器学习工作流中,以几乎不需要编写代码的方式执行数据预处理和特征工程。
在开始本模块之前,我们应该熟悉Amazon SageMaker Processing 和Data Wrangler 的概念。
我们将订单数据分区成批次,以便更容易地对数据进行分片以进行并行处理。
然后,我们将使用SageMaker Processing Jobs和Data Wrangler将原始数据转换为特征,并将特征摄取到特征存储中。使用SageMaker Processing,我们将使用两种不同的处理器摄取数据 - Scikitlearn处理作业和PySpark处理作业。