在之前,我们了解了如何使用Data wrangler对数据集进行探索性数据分析。根据这些不同的分析,我们确定了数据集中存在一些需要纠正的问题。因此,在本节中,将对数据应用一系列数据转换。这些特征工程步骤将确保我们修复数据集中出现的所有问题。
对于我们的酒店预订数据,首先删除一些在上一节中确定的冗余列。首先,根据target leak
,我们可以删除reservation_status
列。
此外,我们还可以删除7个更多的列(如下所列),这些列也是根据我们的目标泄露分析而被认为是冗余的。
days_in_waiting_list
hotel
reserved_room_type
arrival_date_month
reservation_status_date
babies
arrival_date_day_of_month
我们还进行了一组针对特征相关性的分析。根据这些分析结果,我们可以删除一些彼此高度相关的列。根据线性相关性结果,我们将删除arrival_date_week_number
和arrival_date_year
列。这些特征(列)对之间的相关性值大于推荐阈值0.90。
根据非线性相关性结果,我们可以删除reservation_status
列。我们已经根据目标泄露分析删除了这一列。
此外,根据多重共线性分析结果,我们还可以删除adults
和agent
列,因为它们的方差膨胀因子得分大于5。
要删除列,我们可以选择Manage columns转换:
并选择要删除的列名,如下图所示:
最后点击添加。添加完成后,列数减少:
接下来,让我们删除在上一节分析中确定的重复行。选择Manage rows转换:
选择Drop duplicate转换类型:
然后点击添加。数据会从5万多行变成3万: