特征工程 - 删除冗余列

删除冗余列

在之前,我们了解了如何使用Data wrangler对数据集进行探索性数据分析。根据这些不同的分析,我们确定了数据集中存在一些需要纠正的问题。因此,在本节中,将对数据应用一系列数据转换。这些特征工程步骤将确保我们修复数据集中出现的所有问题。

  1. 对于我们的酒店预订数据,首先删除一些在上一节中确定的冗余列。首先,根据target leak ,我们可以删除reservation_status列。

  2. 此外,我们还可以删除7个更多的列(如下所列),这些列也是根据我们的目标泄露分析而被认为是冗余的。

  • days_in_waiting_list
  • hotel
  • reserved_room_type
  • arrival_date_month
  • reservation_status_date
  • babies
  • arrival_date_day_of_month
  1. 我们还进行了一组针对特征相关性的分析。根据这些分析结果,我们可以删除一些彼此高度相关的列。根据线性相关性结果,我们将删除arrival_date_week_numberarrival_date_year列。这些特征(列)对之间的相关性值大于推荐阈值0.90。

  2. 根据非线性相关性结果,我们可以删除reservation_status列。我们已经根据目标泄露分析删除了这一列。

  3. 此外,根据多重共线性分析结果,我们还可以删除adultsagent列,因为它们的方差膨胀因子得分大于5。

删除列

要删除列,我们可以选择Manage columns转换:

image-20240904224717517

并选择要删除的列名,如下图所示:

image-20240904224926942最后点击添加。添加完成后,列数减少:

image-20240904225039131

删除重复行

接下来,让我们删除在上一节分析中确定的重复行。选择Manage rows转换:

image-20240904225226727

选择Drop duplicate转换类型:

image-20240904225242286

然后点击添加。数据会从5万多行变成3万:

image-20240904225351945