SageMaker Data Wrangler 包含内置分析,只需单击几下即可生成可视化和数据分析, 还可以使用自己的代码创建自定义分析。
从Data Flow页面, 进入Analyses,然后进行创建:
报告可能需要一些时间才能完全生成,准备就绪后,将看到包含以下主题的报告:
每个部分将包含特定于相关主题的指标。 这将我们带到分析页面,其中提供了可供选择和应用的各种分析类型的列表:
数据进行了简短摘要,其中包括缺失值、无效值、异常值计数等一般信息。它还可能包括指出数据可能存在问题的高严重性警告:
该报告帮助识别重复行,因为错误的数据收集导致的重复行样本可能会干扰机器学习过程。
我们看到了很多重复行,也可以从 Data Wrangler 中采取的解决该问题的步骤(稍后将详细讨论):
Data Wrangler 在基本预处理后使用 Isolation forest
算法检测异常样本。Isolation forest algorithm
将异常分数与数据集的每个样本(行)相关联。
低异常分数表示异常样本,高分数表示非异常样本。具有负异常得分的样本通常被认为是异常的,具有正异常得分的样本被认为是非异常的:
当在创建报告时选择Target column
时,Data Wrangler 会自动创建目标列分析。它还按照预测能力的顺序对特征进行排名。
对于酒店预订数据集示例(分类问题类型),Data Wrangler 显示了最常见类别(类别)的表格和直方图。它还显示具有缺失或无效目标值的行数:
快速模型提供了对根据数据训练的模型的预测质量的估计。快速模型是一种在数据集上获取一些预测质量洞察指标的好方法,而无需经历完整的模型构建过程:
对于分类模型,Data Wrangler 返回模型摘要和混淆矩阵。
混淆矩阵提供以下信息:
在我们的用例中,真实标签代表已取消或未取消的预订。预测标签表示模型分配给数据的标签。
当指定目标列时,Data Wrangler 会根据预测能力对Feature summary
中的功能进行排序。
分数标准化为范围 [0,1]。较高的预测分数表示对于单独预测目标更有用的列。较低的分数表示不能预测目标列的列。
低分通常表明该特征是多余的,1分意味着完美的预测能力,这通常表明target leakage
。当数据集包含在预测时不可用的列时,通常会发生target leakage
。例如,它可能是目标列的重复项:
该部分提供每个功能的附加信息,包括数据类型、预测能力以及有效和缺失的百分比值:
Definations
部分提供了数据洞察报告中使用的技术术语的解释:
更多信息请参考: https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-data-insights.html