预测标签中正比例的差异 (DPPL)

预测标签中正比例的差异 (DPPL) 指标可确定模型对每个分面的结果预测是否不同。其定义是分面 a 的阳性预测值 (y’ = 1) 比例与分面 d 的阳性预测值 (y’ = 1) 比例之差。例如，如果模型预测向 60% 的中年组（分面 a）和 50% 的其他年龄组（分面 d）发放贷款，则可能存在不利于分面 d 的偏差。在本例中，您必须确定这 10% 的差异是否对偏差案例有实质性影响。

标签比例差异 (DPL) 是衡量训练前偏差的指标，而 DPPL 则是衡量训练后偏差的指标，两者的比较可以评测数据集中最初存在的正比例偏差在训练后是否发生了变化。如果 DPPL 大于 DPL，那么训练后正比例的偏差就会增加。如果 DPPL 小于 DPL，则说明模型在训练后没有增加正比例偏差。将 DPL 与 DPPL 进行比较并不能保证该模型在所有方面都能减少偏差。例如，在考虑反事实翻转测试 (FT) 或准确率差异 (AD) 等其他指标时，模型可能仍然存在偏差。有关偏见检测的更多信息，请参阅博客文章了解 Amazon Clarif SageMaker y 如何帮助检测偏见。有关 DPL 的更多信息，请参阅标签比例差异 (DPL)。

DPPL 的计算公式为：

DPPL = q'_a - q'_d

其中：

q'_a = n'_a⁽¹⁾/n_a 是分面 a 中得到值为 1 的阳性结果的预测比例。在我们的例子中，是预计获得贷款的中年组分面的比例。这里 n'_a⁽¹⁾ 表示分面 a 中获得值为 1 的阳性预测结果的成员数，n_a 表示分面 a 的成员数。
q'_d = n'_d⁽¹⁾/n_d 是分面 d 中获得值为 1 的阳性结果的预测比例。在我们的例子中，有一部分老年人和年轻人预计会获得贷款。这里 n'_d⁽¹⁾ 表示分面 d 中获得阳性预测结果的成员数，n_d 表示分面 d 的成员数。

如果 DPPL 足够接近于 0，则表示已经实现了训练后人口统计均等。

对于二进制和多类别分面标签，标准化 DPL 值范围在 [-1, 1] 区间内。对于连续标签，值在区间 (-∞, +∞) 内变化。

正 DPPL 值表示与分面 d 相比，分面 a 的预测阳性结果比例更高。

这称为正偏差。
DPPL 值接近于零表示分面 a 和分面 d 之间的预测阳性结果比例更加均等，而值为零则表示完全的人口统计均等。
负 DPPL 值表示与分面 a 相比，分面 d 的预测阳性结果比例更高。这称为负偏差。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

训练后数据和模型偏差指标

差别影响 (DI)