SageMaker介绍 > Data Wrangler - III > 09 - Handle Outliers

09 - Handle Outliers

标题: “09 - 处理异常值” 权重: 11

在统计学中，异常值是与同一数据集中其他观测值显著不同的数据点。异常值可能是由于测量中的变异性造成的，也可能表示实验错误。后者有时会从数据集中排除。例如，在我们的数据集中，我们有 tip_amount 特征，通常它小于 10 美元，但由于数据收集中的错误，一些值可能显示为数千美元的小费。这种数据错误会扭曲统计数据和聚合值，从而导致模型精度降低。

异常值可能会严重影响统计分析。机器学习模型对特征值的分布和范围很敏感。异常值或罕见值可能会负面影响模型精度并导致更长的训练时间。当我们定义 处理异常值 转换步骤时，用于检测异常值的统计数据是在定义此步骤时 Data Wrangler 中可用的数据生成的。在运行 Data Wrangler 作业时，将使用相同的统计数据。

Data Wrangler 支持多种异常值检测和处理方法。我们将使用 标准差数值异常值 并删除所有异常值，因为我们的数据集足够大。此转换使用平均值和标准差检测和修复数值特征中的异常值。我们指定一个值必须偏离平均值多少个标准差才被视为异常值。例如，如果我们指定 3 个标准差，则超出平均值 3 个标准差以上的值被视为异常值。

要创建此转换，请按照以下步骤操作:

单击转换元素集合旁边的加号，然后选择"添加转换”。
在 TRANSFORMS 菜单中单击橙色的"+ 添加步骤"按钮。
选择"处理异常值”。
对于"转换”，选择"标准差数值异常值”。
对于"输入列”，选择 tip_amount、total_amount、duration 和 trip_distance。
对于"修复方法”，选择"删除”。
对于"标准差”，输入 4。
选择"预览”。
选择"添加"以保存该步骤。

当应用此转换到数据集时，我们可以查看到目前为止的所有步骤，并预览结果数据集。

可选: 如果我们愿意，可以重复我们之前分析(“当前数据集的快速分析”)中的步骤来创建一个新的表摘要，并检查 duration 列的新最大值。我们可以看到，duration 的新最大值为 67 分钟 = 刚刚超过一个小时。这比我们之前的结果更加合理。

单击"返回到数据流"以返回到块图编辑器窗口。