04 - Validate Timestamps


标题: “04 - 验证时间戳” 权重: 06


缺失数据是现实生活中的一个常见问题,可能是由于数据损坏、数据丢失或数据摄取问题造成的。在处理时间序列数据时,验证是否存在任何缺失或无效值并适当处理它们是至关重要的。有许多不同的策略来处理缺失或无效数据,例如删除包含缺失值的行或用静态或计算值填充缺失值。根据数据集的大小,我们可以选择修复值或只删除它们。“时间序列 - 处理缺失"转换允许我们选择并应用此类策略。

由于我们未来的所有聚合都将基于时间戳,我们必须确保在 tpep_pickup_datetimetpep_dropoff_datetime 列中没有任何缺失时间戳的行。数据整理器有几个特定于时间序列的转换,包括 验证时间戳,其中包括检查两种情况:

  1. 我们的时间戳列有缺失值。
  2. 我们的时间戳列中的值格式不正确。

要验证 tpep_dropoff_datetimetpep_pickup_datetime 列中的时间戳:

  • 单击"删除列"元素旁边的加号并选择"添加转换”。
  • 在 TRANSFORMS 菜单中单击橙色的"+ 添加步骤"按钮。
  • 选择时间序列。
  • 对于转换,选择"验证时间戳”;对于时间戳列,选择 tpep_pickup_datetime;对于策略,选择 删除
  • 选择预览。
  • 选择添加以保存该步骤。
  • tpep_dropoff_datetime 列重复相同的步骤。

当我们将转换应用于采样数据时,我们可以看到所有现有步骤和结果数据集的预览。

单击顶部的"返回到数据流"以返回到流程图编辑器。