接下来,让我们看看如何平衡目标变量(列)的类别不平衡。假设以下负面和正面案例:
is_canceled
= 0 (负面案例)is_canceled
= 1 (正面案例)在 Data Wrangler 中,我们可以使用 3 种不同的技术来处理类别不平衡:
从 Data Wrangler 的transform中,选择 Balance data :
并选择 Random Oversample 方式,选择is_canceled
字段:
点击Add。在平衡之前和之后,类别的状态如下:
正面案例与负面案例的比例约为 0.38
过采样和平衡数据集后,比例等于 1。
注意行数添加了16967行: