接下来,让我们看看如何平衡目标变量(列)的类别不平衡。假设以下负面和正面案例:
is_canceled = 0 (负面案例)is_canceled = 1 (正面案例)在 Data Wrangler 中,我们可以使用 3 种不同的技术来处理类别不平衡:
从 Data Wrangler 的transform中,选择 Balance data :

并选择 Random Oversample 方式,选择is_canceled字段:

点击Add。在平衡之前和之后,类别的状态如下:
正面案例与负面案例的比例约为 0.38

过采样和平衡数据集后,比例等于 1。

注意行数添加了16967行:
