03 - Redundant Columns


title: “03 - 冗余列” weight: 05


在我们分析导入的数据并开始对其进行特征工程之前,让我们首先清理数据集中不重要的冗余列。重申一下,我们的业务目标是预测纽约市黄色出租车在未来24小时内每个上车区域的上车次数,并提供有关行程的数据洞见。

鉴于我们对每小时的预测感兴趣,我们需要聚合某些特征并删除一些无法聚合的特征。为此,我们可以从原始数据集中排除以下13列。

  1. VendorID(表示提供记录的TPEP提供商的代码)
  2. RatecodeID(行程结束时生效的最终费率代码)
  3. Store_and_fwd_flag(此标志表示该行程记录是否在发送到供应商之前保存在车载存储器中,因为车辆未连接到服务器)
  4. DOLocationID(出租车计价器停止计费的TLC出租车区域)
  5. Payment_type(表示乘客如何支付行程费用的数字代码)
  6. Fare_amount(计价器计算的时间和距离费用) - 我们将使用总金额特征
  7. Extra(杂项附加费和附加费)
  8. MTA_tax(根据使用的计价率自动触发的0.50美元MTA税)
  9. Tolls_amount(行程中支付的所有通行费总额)
  10. Improvement_surcharge(从2015年开始征收的行程附加费)
  11. Passenger_count(这是司机输入的值)
  12. congestion_surcharge(行程中收取的纽约州拥堵附加费总额)
  13. airport_fee(拉瓜迪亚和约翰·F·肯尼迪机场的上车费为1.25美元)


要删除这些列,请按以下步骤操作:

  • 单击"数据类型"元素旁边的加号,然后选择"添加转换”。
  • 在TRANSFORMS菜单中单击橙色的"+ 添加步骤"按钮。
  • 选择"管理列”。
  • 对于转换,选择"删除列”,对于要删除的列,选择上面列出的所有列。
  • 选择预览。
  • 选择添加以保存该步骤。

将此转换应用于采样数据集后,我们可以查看所有当前步骤和结果数据集的预览。

接下来,单击顶部的"返回到数据流"以返回到流程图。