特征工程 - Balance Classes

接下来,让我们看看如何平衡目标变量(列)的类别不平衡。假设以下负面和正面案例:

  • is_canceled = 0 (负面案例)
  • is_canceled = 1 (正面案例)

在 Data Wrangler 中,我们可以使用 3 种不同的技术来处理类别不平衡:

  • 随机欠采样(Random Undersample)
  • 随机过采样(Random Oversample)
  • SMOTE

从 Data Wrangler 的transform中,选择 Balance data

image-20240906095227432

并选择 Random Oversample 方式,选择is_canceled字段:

image-20240906095322469

点击Add。在平衡之前和之后,类别的状态如下:

正面案例与负面案例的比例约为 0.38

过采样和平衡数据集后,比例等于 1。

注意行数添加了16967行:

image-20240906095553991