标题: “04 - 验证时间戳” 权重: 06
缺失数据是现实生活中的一个常见问题,可能是由于数据损坏、数据丢失或数据摄取问题造成的。在处理时间序列数据时,验证是否存在任何缺失或无效值并适当处理它们是至关重要的。有许多不同的策略来处理缺失或无效数据,例如删除包含缺失值的行或用静态或计算值填充缺失值。根据数据集的大小,我们可以选择修复值或只删除它们。“时间序列 - 处理缺失"转换允许我们选择并应用此类策略。
由于我们未来的所有聚合都将基于时间戳,我们必须确保在 tpep_pickup_datetime
和 tpep_dropoff_datetime
列中没有任何缺失时间戳的行。数据整理器有几个特定于时间序列的转换,包括 验证时间戳,其中包括检查两种情况:
要验证 tpep_dropoff_datetime
和 tpep_pickup_datetime
列中的时间戳:
tpep_pickup_datetime
;对于策略,选择 删除。
tpep_dropoff_datetime
列重复相同的步骤。当我们将转换应用于采样数据时,我们可以看到所有现有步骤和结果数据集的预览。
单击顶部的"返回到数据流"以返回到流程图编辑器。