我们可以使用 Data Wrangler 中的偏差报告来发现数据中的潜在偏差。要生成偏差报告,必须指定目标列或标签,以及Facet,或我们希望检查其偏差的列。
标签: 我们希望模型对其进行预测的特征。对于这个特定的数据集,可能希望预测预订是否会被取消,因此我们将选择 is_canceled
列。我们还必须指定这个特征是标签还是阈值。如果指定了标签,必须指定数据中什么样的积极结果。在预订取消的例子中,积极结果是 is_canceled
列中的 0,表示客户保留了预订。如果我们指定了阈值,我们必须指定定义积极结果的下限。例如,如果我们想估计客户取消预订的概率,该列可能是一个介于 0 和 1 之间的值,表示这个预订被取消的概率。
Facet: 我们想检查其偏差的列。例如,如果正在尝试预测预订是否会被取消,我们的分面可能是 booking_changes
列, 因为我们认为数据可能存在对某些预订变更次数的偏差。我们必须确定分面是以值还是阈值来衡量的。
选择好特征和标签后,选择要计算的偏差指标类型。
现在分析 booking_changes
列与目标列之间是否存在偏差开始。
单击创建新分析,并选择Bias report作为分析类型
选择 is_canceled 列作为目标,并选择Value作为类型; 输入 0 作为预测值
对于要分析偏差的列,选择 booking_changes 列,并选择value作为类型
取消选中标签中的条件人口差异 (CDDL)
单击preview按钮,等待分析完成。
我们可以使用4个指标来生成偏差报告:
对于所选的 booking_changes
列中的每个值,我们都会看到每个选定指标的值,更改该值将更新指标值。