标题: “09 - 处理异常值” 权重: 11
在统计学中,异常值是与同一数据集中其他观测值显著不同的数据点。异常值可能是由于测量中的变异性造成的,也可能表示实验错误。后者有时会从数据集中排除。例如,在我们的数据集中,我们有 tip_amount
特征,通常它小于 10 美元,但由于数据收集中的错误,一些值可能显示为数千美元的小费。这种数据错误会扭曲统计数据和聚合值,从而导致模型精度降低。
异常值可能会严重影响统计分析。机器学习模型对特征值的分布和范围很敏感。异常值或罕见值可能会负面影响模型精度并导致更长的训练时间。当我们定义 处理异常值 转换步骤时,用于检测异常值的统计数据是在定义此步骤时 Data Wrangler 中可用的数据生成的。在运行 Data Wrangler 作业时,将使用相同的统计数据。
Data Wrangler 支持多种异常值检测和处理方法。我们将使用 标准差数值异常值 并删除所有异常值,因为我们的数据集足够大。此转换使用平均值和标准差检测和修复数值特征中的异常值。我们指定一个值必须偏离平均值多少个标准差才被视为异常值。例如,如果我们指定 3 个标准差,则超出平均值 3 个标准差以上的值被视为异常值。
要创建此转换,请按照以下步骤操作:
tip_amount
、total_amount
、duration
和 trip_distance
。当应用此转换到数据集时,我们可以查看到目前为止的所有步骤,并预览结果数据集。
可选: 如果我们愿意,可以重复我们之前分析(“当前数据集的快速分析”)中的步骤来创建一个新的表摘要,并检查 duration
列的新最大值。我们可以看到,duration
的新最大值为 67 分钟 = 刚刚超过一个小时。这比我们之前的结果更加合理。
单击"返回到数据流"以返回到块图编辑器窗口。