Data Wrangler提供了一个统一的体验,使我们能够准备数据并无缝地训练机器学习模型,全部都在该工具内完成。
可以使用SageMaker Autopilot自动训练、调优和部署我们在数据流中转换的数据。Amazon SageMaker Autopilot可以遍历多种算法,并使用最适合数据的算法。
在训练和调优模型时,Data Wrangler会将数据导出到Amazon S3位置,以便SageMaker Autopilot可以访问。
选择流程中最后一个转换节点旁边的+,然后选择create model:
对于Amazon S3位置,请指定SageMaker导出我们数据的Amazon S3位置。 如果默认显示根存储桶路径,Data Wrangler将在其下创建一个唯一的导出子目录 - 除非我们想要修改此默认根路径,否则无需进行任何修改。
我们可以接受默认设置,然后单击导出并训练按钮将转换后的数据导出到S3。
导出成功后,我们将进入创建Autopilot实验的页面,输入数据S3位置已为我们填好(因为它是从前一个屏幕的结果中填充的)。
正如Amazon SageMaker Autopilot使用由AutoGluon驱动的新集成训练模式最多可快8倍 一文中所详述的,我们可以让Autopilot根据数据集大小自动选择训练模式,或手动选择集成或超参数优化(HPO)训练模式。
每个选项的详细信息如下:
了解部署选项的细节很重要;我们的选择将影响之前在Data Wrangler中进行的转换是否包含在推理管道中:
对于本文,我们使用"自动部署最佳模型,包含Data Wrangler的转换"选项。
在"审查并创建"页面上,我们可以看到为Autopilot实验选择的设置摘要。
我们将被重定向到Autopilot作业描述页面。随着模型的生成,它们会显示在"模型"选项卡上。要确认该过程已完成,请转到"作业概况"选项卡,并查看"状态"字段是否显示"已完成”。
我们随时可以从Amazon SageMaker Studio返回到此Autopilot作业描述页面:
当Autopilot完成实验时,我们可以从Autopilot作业描述页面查看训练结果并探索最佳模型。
性能选项卡显示了几个模型测量指标,包括混淆矩阵、精确度/召回率曲线下的面积(AUCPR)和接收者操作特征曲线下的面积(ROC)。这些说明了模型的整体验证性能,但并不能告诉我们模型是否能很好地推广。
我们仍需要在未见过的测试数据上运行评估,以查看模型的预测准确性(对于这个示例,我们预测个人是否会患糖尿病)。
在下一节中,我们将对我们选择自动部署的实时端点执行推理。