最后,让我们使用原始特征创建一个快速模型,以确定我们的特征有多好,以及这是否可靠,因为我们尚未处理数据集上的共线性问题。
我们可以使用data wrangler中的"快速模型"可视化功能快速评估我们的数据并为每个特征产生重要性得分。特征重要性得分表示该特征在预测目标标签方面的有用程度。特征重要性得分在[0, 1]之间,数值越高表示该特征对整个数据集越重要。在快速模型图表的顶部,有一个模型得分。分类问题显示F1得分。回归问题有一个均方误差(MSE)得分。
当我们创建一个Quick Model图表时,我们选择要评估的数据集和要根据其比较特征重要性的目标标签。data wrangler执行以下操作:
RandomForestRegressor
训练模型。对于分类问题,使用RandomForestClassifier
训练模型。创建一个Quick Model:
其中reservation_status
列被评为最重要的特征,这是一个目标泄露。
在下一节中,我们将应用一些转换来修复数据中的各种共线性和其他问题,并最终重新生成一个快速模型,并比较差异。