SHAP 可解释性基准 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SHAP 可解释性基准

解释通常是对比性的(也就是说,它们解释了与基准的偏差)。因此,对于同一个模型预测,不同的基准会有不同的解释。因此,基准的选择至关重要。在机器学习环境中,基准对应于一个假设的实例,该实例既可能是非信息性,也可能是信息性。在计算 Shapley 值的过程中, SageMaker Clarify 会在基线和给定实例之间生成几个新实例,其中特征的缺失是通过将特征值设置为基线值来建模的,通过将特征值设置为给定实例的特征值来建模特征的存在。因此,不存在所有特征时对应基准,存在所有特征时对应给定实例。

如何选择合适的基准? 通常,最好选择信息含量非常低的基准。例如,可以通过取数值特征的中位数或平均值以及类别特征的模式,根据训练数据集来构造平均实例。在大学录取的例子中,您可能有兴趣解释为什么某个申请人会被录取,而不是基于平均申请人的基准进行录取。如果未提供,则由 SageMaker Clarify 在输入数据集中使用 K-means 或 K-prototype 自动计算基线。

或者,您可以选择生成有关信息性基准的说明。在大学录取场景中,您可能需要解释为什么某个申请人会被拒绝,而其他具有相似人口统计背景的申请人未被拒绝。在这种情况下,您可以选择一个能代表相关申请人的基准,即人口统计背景相似的申请人。因此,您可以使用信息性基准来集中分析特定模型预测的特定方面。您可以通过将人口统计属性和其他无法执行的特征设置为与给定实例中的值相同,从而分离出这些特征以进行评估。