13 - Lag Features


标题: “13 - 滞后特征” 权重: 15


接下来让我们为目标列 count 创建滞后特征。时间序列分析中的滞后特征是先前时间戳的值,被认为有助于推断未来的值。它们还有助于识别自相关,也称为序列相关,残差序列中的模式,通过量化观测值与前一时间步的观测值之间的关系。自相关类似于常规相关,但是在一个序列中的值与其过去的值之间。它构成了 ARIMA 系列中自回归预测模型的基础。

使用数据整理器的滞后特征转换,我们可以轻松地创建 n 个时期之前的滞后特征。此外,我们通常希望创建多个不同滞后的滞后特征,并让模型决定最有意义的特征。对于这种情况,滞后特征转换可以帮助在指定的窗口大小内创建多个滞后列。

要创建这个转换,请按照以下步骤操作:

  • 单击一组转换元素旁边的加号,然后选择"添加转换”。
  • 在 TRANSFORMS 菜单中单击橙色的"+ 添加步骤"按钮。
  • 选择时间序列。
  • 对于"转换”,选择"滞后特征”。
  • 对于"为此列生成滞后特征”,选择"count”。
  • 对于"ID 列”,输入"PULocationID”。
  • 对于"时间戳列”,选择"pickup_time”。
  • 对于滞后,输入 8。(我们可以尝试使用不同的值 - 也许在我们的情况下 24 小时更有意义?)
  • 因为我们对观察前 8 个滞后值感兴趣,所以让我们选择包括整个滞后窗口。
  • 为每个滞后值创建一个新列,请选择展平输出。
  • 选择预览。
  • 选择添加以保存该步骤。

创建滞后特征可能会导致缺失值。因此,让我们填充所有滞后特征列以及其他现有列的缺失值,以确保我们没有任何缺失值。要添加转换,请单击"添加步骤"并选择"处理缺失”。请参见下图。

将此转换应用于数据集时,我们可以看到到目前为止的所有当前步骤,并预览结果数据集。

单击"返回数据流"以返回到块图编辑器窗口。