09 - Handle Outliers


标题: “09 - 处理异常值” 权重: 11


在统计学中,异常值是与同一数据集中其他观测值显著不同的数据点。异常值可能是由于测量中的变异性造成的,也可能表示实验错误。后者有时会从数据集中排除。例如,在我们的数据集中,我们有 tip_amount 特征,通常它小于 10 美元,但由于数据收集中的错误,一些值可能显示为数千美元的小费。这种数据错误会扭曲统计数据和聚合值,从而导致模型精度降低。

异常值可能会严重影响统计分析。机器学习模型对特征值的分布和范围很敏感。异常值或罕见值可能会负面影响模型精度并导致更长的训练时间。当我们定义 处理异常值 转换步骤时,用于检测异常值的统计数据是在定义此步骤时 Data Wrangler 中可用的数据生成的。在运行 Data Wrangler 作业时,将使用相同的统计数据。

Data Wrangler 支持多种异常值检测和处理方法。我们将使用 标准差数值异常值 并删除所有异常值,因为我们的数据集足够大。此转换使用平均值和标准差检测和修复数值特征中的异常值。我们指定一个值必须偏离平均值多少个标准差才被视为异常值。例如,如果我们指定 3 个标准差,则超出平均值 3 个标准差以上的值被视为异常值。

要创建此转换,请按照以下步骤操作:

  • 单击转换元素集合旁边的加号,然后选择"添加转换”。
  • 在 TRANSFORMS 菜单中单击橙色的"+ 添加步骤"按钮。
  • 选择"处理异常值”。
  • 对于"转换”,选择"标准差数值异常值”。
  • 对于"输入列”,选择 tip_amounttotal_amountdurationtrip_distance
  • 对于"修复方法”,选择"删除”。
  • 对于"标准差”,输入 4。
  • 选择"预览”。
  • 选择"添加"以保存该步骤。

当应用此转换到数据集时,我们可以查看到目前为止的所有步骤,并预览结果数据集。

可选: 如果我们愿意,可以重复我们之前分析(“当前数据集的快速分析”)中的步骤来创建一个新的表摘要,并检查 duration 列的新最大值。我们可以看到,duration 的新最大值为 67 分钟 = 刚刚超过一个小时。这比我们之前的结果更加合理。

单击"返回到数据流"以返回到块图编辑器窗口。