SageMaker介绍 > Data Wrangler - II > 特征工程 - 删除冗余列

特征工程 - 删除冗余列

在之前，我们了解了如何使用Data wrangler对数据集进行探索性数据分析。根据这些不同的分析，我们确定了数据集中存在一些需要纠正的问题。因此，在本节中，将对数据应用一系列数据转换。这些特征工程步骤将确保我们修复数据集中出现的所有问题。

我们还进行了一组针对特征相关性的分析。根据这些分析结果，我们可以删除一些彼此高度相关的列。根据线性相关性结果，我们将删除arrival_date_week_number和arrival_date_year列。这些特征(列)对之间的相关性值大于推荐阈值0.90。
根据非线性相关性结果，我们可以删除reservation_status列。我们已经根据目标泄露分析删除了这一列。
此外，根据多重共线性分析结果，我们还可以删除adults和agent列，因为它们的方差膨胀因子得分大于5。

要删除列，我们可以选择Manage columns转换:

并选择要删除的列名，如下图所示:

最后点击添加。添加完成后，列数减少：

接下来，让我们删除在上一节分析中确定的重复行。选择Manage rows转换:

选择Drop duplicate转换类型:

然后点击添加。数据会从5万多行变成3万：