标题: “17 - 评估结果” 权重: 23
Autopilot实验完成后,我们可以看到根据目标指标排名的训练模型列表,如下所示。我们现在还可以单击右上角的2个按钮打开生成的笔记本。Autopilot会自动为我们生成这些笔记本。
笔记本1是候选管道笔记本。它展示了Autopilot提出的所有特征工程配方、所选算法和超参数。这确保了Autopilot执行的所有操作都是完全透明的白盒体验。
笔记本2是数据探索笔记本。这个笔记本涵盖了输入数据的见解,如描述性统计、特征重要性、异常值、红旗等。它还提供了如何缓解输入数据集中出现的问题的建议。
我们还可以通过查看模型报告和洞察页面来详细查看训练好的模型(如下所示)。特征归因、不同目标指标的得分等都列在这里。
最佳模型部署后,我们可以轻松地使用部署的SageMaker端点进行实时推理并做出预测。对于我们的示例,我们可以使用端点名称NYC-taxi-trip-prediction编写几行代码来组装推理逻辑。下面显示的代码片段可以复制粘贴到Studio笔记本中并执行以进行预测。
from sagemaker.deserializers import CSVDeserializer
from sagemaker.serializers import CSVSerializer
from sagemaker.predictor import Predictor
import sagemaker
session = sagemaker.Session()
predictor = Predictor(endpoint_name="nyc-taxi-trip-prediction", sagemaker_session=session, serializer=CSVSerializer(), deserializer=CSVDeserializer())
payload = "7, 2020-01-22T02:00:00.000Z"
prediction = predictor.predict(payload)
print(f'Predicted number of trips = {round(float(prediction[0][0]))}')
如上图所示,我们使用示例负载7, 2020-01-22T02:00:00.000Z
测试了部署的端点,提出了一个问题 - 在2020年1月22日凌晨2点,位置区域7大约会有多少次行程?对于这个输入,最佳模型能够返回一个预测结果为7次行程。有了这个模型,我们可以推断并预测未来的日期和时间的位置ID。
注意: 如果我们之前在Data Wrangler中将数据集分成了测试保留集,我们也可以使用Autopilot的最佳模型并运行批量转换作业来离线批量评分输入。要了解如何使用Autopilot训练的模型进行批量预测,请查看以下博客文章 。