基于我们对数据集的理解,我们还可以应用几个过滤器来删除无效或损坏的数据,这将进一步提高数据质量,确保我们只向模型训练过程提供正确的数据。
我们可以根据以下规则过滤数据:
tpep_pickup_datetime
- 必须在(2019年2月1日至2020年2月29日)的范围内,即13个月。trip_distance
- 必须大于或等于0(仅正数)。tip_amount
- 必须大于或等于0(仅正数)。total_amount
- 必须大于或等于0(仅正数)。duration
- 必须大于或等于1分钟(我们不关心超短的行程)。PULocationID
- 必须在(1到263)的范围内。这些是分配的区域。为了简洁起见,让我们在本次研讨会中只使用前10个位置ID(见下图)。Data Wrangler中没有内置的过滤转换来处理这些各种约束。因此,我们将创建一个自定义转换。
要创建自定义转换,请按照以下步骤操作:
df = df.filter(df.trip_distance >= 0)
df = df.filter(df.tip_amount >= 0)
df = df.filter(df.total_amount >= 0)
df = df.filter(df.duration >= 1)
df = df.filter((1 <= df.PULocationID) & (df.PULocationID <= 10))
df = df.filter((df.tpep_pickup_datetime >= "2019-02-01 00:00:00") & (df.tpep_pickup_datetime < "2020-03-01 00:00:00"))
当这个转换应用于数据集时,我们将看到所有先前的步骤,并获得新转换数据集的预览。
单击"返回到数据流"以返回到块图编辑器窗口。