多重共线性(Multicollinearity
)是两个或多个独立变量(预测因子)之间存在高度相关的现象。当数据集中存在多重共线性时,可能会导致模型预测结果不准确和具有误导性。因此,了解多重共线性对于数据分析非常重要,需要认真对待。Data Wrangler提供了现成的分析选项来检测数据中的多重共线性。
方差膨胀因子(VIF)是衡量变量之间共线性的一种度量。VIF分数是一个大于或等于1的正数,分数为1表示该变量与其他变量完全独立。分数越大,表示该变量越依赖于其他变量。由于它是倒数,VIF分数可能会无穷大。需要注意的是,我们将VIF分数设置为最大50。作为一般经验法则,对于样本数量正常的情况,分数在5以内表示变量之间只有中度相关,超过5则表示高度相关。
要创建VIF分析,选择分析类型为"Multicolinearity”,Analysis选择方差膨胀因子,分析结果如下表所示:
根据上述规则,我们可以从特征集中删除以下特征列:
arrival_date_year
adults
agents
arrival_date_week_number
stays_in_week_nights
主成分分析(PCA)测量数据在特征空间中不同方向上的方差。这些方差的有序列表(也称为奇异值)可以告诉我们数据中是否存在多重共线性。这个列表包含非负数。当这些数字大致均匀时,数据中很少有多重共线性。但是,当情况相反时,顶部值的幅度将主导其余部分。为了避免由于不同尺度而引起的问题,在应用PCA之前会对单个特征进行标准化,使其均值为0、标准差为1。
要创建PCA分析,选择分析类型为"Multicolinearity”,Analysis选择PCA,分析结果如下表所示:
根据上述规则,很明显这些数字(方差)并不均匀,这确认了数据存在需要修复的多重共线性。这已经通过我们之前的分析得到确认。
Lasso feature selection训练一个带有L1正则化的线性分类器(我们可以通过调整L1幅度来控制L1惩罚的强度),这会产生一个稀疏解。回归器为每个特征提供一个系数,这个系数的绝对值可以被解释为该特征的重要性得分。
要创建Lasso特征选择分析,选择分析类型为"Multicolinearity”,Analysis选择为"Lasso特征选择”: