在之前,我们了解了如何使用Data wrangler对数据集进行探索性数据分析。根据这些不同的分析,我们确定了数据集中存在一些需要纠正的问题。因此,在本节中,将对数据应用一系列数据转换。这些特征工程步骤将确保我们修复数据集中出现的所有问题。
对于我们的酒店预订数据,首先删除一些在上一节中确定的冗余列。首先,根据target leak
,我们可以删除reservation_status列。
此外,我们还可以删除7个更多的列(如下所列),这些列也是根据我们的目标泄露分析而被认为是冗余的。
days_in_waiting_listhotelreserved_room_typearrival_date_monthreservation_status_datebabiesarrival_date_day_of_month我们还进行了一组针对特征相关性的分析。根据这些分析结果,我们可以删除一些彼此高度相关的列。根据线性相关性结果,我们将删除arrival_date_week_number和arrival_date_year列。这些特征(列)对之间的相关性值大于推荐阈值0.90。
根据非线性相关性结果,我们可以删除reservation_status列。我们已经根据目标泄露分析删除了这一列。
此外,根据多重共线性分析结果,我们还可以删除adults和agent列,因为它们的方差膨胀因子得分大于5。
要删除列,我们可以选择Manage columns转换:

并选择要删除的列名,如下图所示:
最后点击添加。添加完成后,列数减少:

接下来,让我们删除在上一节分析中确定的重复行。选择Manage rows转换:

选择Drop duplicate转换类型:

然后点击添加。数据会从5万多行变成3万:
