现在我们已经对特征列应用了大部分所需的转换,我们现在可以使用转换后的特征创建一个快速模型来识别目标 is_canceled 的预测能力,并查看它们对预测的贡献。
每次进行一组特征转换时,运行一个快速模型都是一个很好的做法。之前,我们使用原始特征进行了快速模型分析。由于我们尚未解决大部分相关性和其他数据集问题,之前的结果大多是不正确和具有误导性的。
下图显示了使用转换后的特征新运行的快速模型的结果。
如我们所见,快速模型在测试数据上达到了67%的F1分数。以下是对此分数贡献最大的前4个特征:
lead_time
adr
country
arrival_date_month