Bias Detection - 偏差检测

我们可以使用 Data Wrangler 中的偏差报告来发现数据中的潜在偏差。要生成偏差报告,必须指定目标列或标签,以及Facet,或我们希望检查其偏差的列。

标签: 我们希望模型对其进行预测的特征。对于这个特定的数据集,可能希望预测预订是否会被取消,因此我们将选择 is_canceled 列。我们还必须指定这个特征是标签还是阈值。如果指定了标签,必须指定数据中什么样的积极结果。在预订取消的例子中,积极结果是 is_canceled 列中的 0,表示客户保留了预订。如果我们指定了阈值,我们必须指定定义积极结果的下限。例如,如果我们想估计客户取消预订的概率,该列可能是一个介于 0 和 1 之间的值,表示这个预订被取消的概率。

Facet: 我们想检查其偏差的列。例如,如果正在尝试预测预订是否会被取消,我们的分面可能是 booking_changes 列, 因为我们认为数据可能存在对某些预订变更次数的偏差。我们必须确定分面是以值还是阈值来衡量的。

选择好特征和标签后,选择要计算的偏差指标类型。

现在分析 booking_changes 列与目标列之间是否存在偏差开始。

测量 booking_changes 列上的偏差

单击创建新分析,并选择Bias report作为分析类型

选择 is_canceled 列作为目标,并选择Value作为类型; 输入 0 作为预测值

image-20240903093800702

对于要分析偏差的列,选择 booking_changes 列,并选择value作为类型

取消选中标签中的条件人口差异 (CDDL)

单击preview按钮,等待分析完成。

image-20240903093902456

我们可以使用4个指标来生成偏差报告:

  • 类别失衡 (CI): 检测优势群体在数据集中的表现是否大大高于劣势群体,反之亦然。
  • 标签中正比例差异 (DPL): 检测是否有一个类别在训练数据中具有显著更高的理想(或相反 不理想)结果比例。
  • Jensen-Shannon 散度 (JS): JS 衡量不同类别的标签分布相互发散的程度。如果所有类别的平均标签分布为 P,则 JS 散度是每个类别的概率分布与平均分布 P 的 KL 散度的平均值。这个熵量度也可以推广到多标签和连续情况。
  • 标签中的条件人口差异 (CDDL)

对于所选的 booking_changes 列中的每个值,我们都会看到每个选定指标的值,更改该值将更新指标值。

image-20240903094150390