Quick Model

最后,让我们使用原始特征创建一个快速模型,以确定我们的特征有多好,以及这是否可靠,因为我们尚未处理数据集上的共线性问题。

我们可以使用data wrangler中的"快速模型"可视化功能快速评估我们的数据并为每个特征产生重要性得分。特征重要性得分表示该特征在预测目标标签方面的有用程度。特征重要性得分在[0, 1]之间,数值越高表示该特征对整个数据集越重要。在快速模型图表的顶部,有一个模型得分。分类问题显示F1得分。回归问题有一个均方误差(MSE)得分。

当我们创建一个Quick Model图表时,我们选择要评估的数据集和要根据其比较特征重要性的目标标签。data wrangler执行以下操作:

  • 推断目标标签和数据集中每个特征的数据类型。
  • 确定问题类型。根据标签列中不同值的数量,data wrangler确定这是回归问题还是分类问题。data wrangler将分类阈值设置为100。如果标签列中有超过100个不同的值,数据整理器将其归类为回归问题;否则将其归类为分类问题。
  • 对特征和标签数据进行预处理以进行训练。所使用的算法需要将特征编码为向量类型,并将标签编码为双精度类型。
  • 使用70%的数据训练一个随机森林算法。对于回归问题,使用Spark的RandomForestRegressor训练模型。对于分类问题,使用RandomForestClassifier训练模型。
  • 使用剩余30%的数据评估随机森林模型。数据整理器使用F1得分评估分类模型,使用MSE(均方误差)得分评估回归模型。
  • 使用Gini重要性方法计算每个特征的特征重要性。

创建一个Quick Model:

image-20240903104508390

其中reservation_status列被评为最重要的特征,这是一个目标泄露。

在下一节中,我们将应用一些转换来修复数据中的各种共线性和其他问题,并最终重新生成一个快速模型,并比较差异。