标题: “15 - 导出数据” 权重: 21
在这个阶段,我们有一个经过清洗和转换的新数据集,并添加了新的特征工程。这个数据集可以用于预测,可以使用开源库/框架或AWS服务,如Amazon SageMaker Autopilot 、Amazon SageMaker Canvas 或Amazon Forecast 。鉴于我们到目前为止只使用了数据集的一个样本来创建数据准备和转换流程,接下来我们需要将相同的流程应用到整个数据集上,并以分布式的方式扩展整个过程。Data Wrangler让我们可以通过多种方式来实现这一点。我们可以将数据流程导出为: 1/处理作业, 2/SageMaker管道步骤, 或 3/Python脚本。我们还可以通过UI启动这些分布式作业,而无需编写任何代码,使用Data Wrangler的目标节点选项。导出选项也可通过SageMaker Studio笔记本(Jupyter)进行。此外,转换后的特征也可以直接摄入到SageMaker Feature Store中。
对于这个实验,我们将看看如何使用目标节点选项,通过由SageMaker Processing 驱动的分布式PySpark作业将转换后的特征导出到S3。
这个选项创建了一个SageMaker处理作业,它使用我们之前创建的数据流(配方)来启动对”整个“数据集的分布式处理作业,并将结果保存到指定的S3存储桶。
此外,我们还可以在导出步骤之前删除不需要的列。为了简洁起见,并简化预测问题陈述,让我们删除除pickup_time
、count
和PULocationID
之外的所有列。其中count
是我们要尝试预测的目标变量。pickup_time
和PULocationID
将是我们用于建模的特征列。为了创建模型,我们将使用SageMaker Autopilot。这将在接下来的2个部分中介绍。
按照以下步骤将结果数据导出到S3:
在Data Wrangler处理作业完成后,我们可以检查保存在目标S3存储桶中的结果。
此时,我们已经设计了一个数据处理和特征工程的数据流,并成功启动了它。当然,我们并不总是需要通过单击"运行"按钮来运行作业。我们也可以将其自动化,但这是本系列另一个研讨会的主题!
祝贺我们! 我们已经完成了这个实验。到目前为止,我们已经学会了如何有效和高效地使用Amazon SageMaker Data Wrangler,并轻松地处理时间序列数据的复杂性。
我们现在可以使用Data Wrangler输出的ML就绪转换特征,结合其他Amazon SageMaker组件,如SageMaker Autopilot、SageMaker Canvas或AWS AI服务,如Amazon Forecast,来创建预测/预报模型。在接下来的2个可选部分中,让我们看看如何使用SageMaker Autopilot来训练和调整一个基于Data Wrangler转换特征的预测模型。