Exploratory Data Analysis

SageMaker Data Wrangler 包含内置分析,只需单击几下即可生成可视化和数据分析, 还可以使用自己的代码创建自定义分析。

了解数据质量

从Data Flow页面, 进入Analyses,然后进行创建:

image-20240902215352358

报告可能需要一些时间才能完全生成,准备就绪后,将看到包含以下主题的报告:

  • Summary
  • Duplicate Rows
  • Anomalous Samples
  • Target Column
  • Quick Model
  • Feature Summary
  • Feature Details
  • Samples
  • Definitions

每个部分将包含特定于相关主题的指标。 这将我们带到分析页面,其中提供了可供选择和应用的各种分析类型的列表:

image-20240902215437260

Summary

数据进行了简短摘要,其中包括缺失值、无效值、异常值计数等一般信息。它还可能包括指出数据可能存在问题的高严重性警告:

image-20240902215600117

Duplicated Rows

该报告帮助识别重复行,因为错误的数据收集导致的重复行样本可能会干扰机器学习过程。

我们看到了很多重复行,也可以从 Data Wrangler 中采取的解决该问题的步骤(稍后将详细讨论):

image-20231210212154056

Anomalous samples

Data Wrangler 在基本预处理后使用 Isolation forest算法检测异常样本。Isolation forest algorithm将异常分数与数据集的每个样本(行)相关联。

低异常分数表示异常样本,高分数表示非异常样本。具有负异常得分的样本通常被认为是异常的,具有正异常得分的样本被认为是非异常的:

image-20231210212322792

Target colum

当在创建报告时选择Target column时,Data Wrangler 会自动创建目标列分析。它还按照预测能力的顺序对特征进行排名。

对于酒店预订数据集示例(分类问题类型),Data Wrangler 显示了最常见类别(类别)的表格和直方图。它还显示具有缺失或无效目标值的行数:

image-20231210213150249

Quick Model

快速模型提供了对根据数据训练的模型的预测质量的估计。快速模型是一种在数据集上获取一些预测质量洞察指标的好方法,而无需经历完整的模型构建过程:

image-20231210213435029

对于分类模型,Data Wrangler 返回模型摘要和混淆矩阵。

混淆矩阵提供以下信息:

  • 预测标签与真实标签匹配的次数。
  • 预测标签与真实标签不匹配的次数。

在我们的用例中,真实标签代表已取消或未取消的预订。预测标签表示模型分配给数据的标签。

Feature summary

当指定目标列时,Data Wrangler 会根据预测能力对Feature summary中的功能进行排序。

分数标准化为范围 [0,1]。较高的预测分数表示对于单独预测目标更有用的列。较低的分数表示不能预测目标列的列。

低分通常表明该特征是多余的,1分意味着完美的预测能力,这通常表明target leakage。当数据集包含在预测时不可用的列时,通常会发生target leakage。例如,它可能是目标列的重复项:

image-20231210213742152

Feature details

该部分提供每个功能的附加信息,包括数据类型、预测能力以及有效和缺失的百分比值:

image-20231210214119654

Definitions

Definations部分提供了数据洞察报告中使用的技术术语的解释:

image-20231210214227854

更多信息请参考: https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-data-insights.html