説明可能性のための SHAP ベースライン

説明とは一般的に対比的なものです (つまり、この場合はベースラインからの逸脱について説明します)。その結果、同じモデルの予測でも、ベースラインが異なれば異なる説明が得られることが期待できます。したがって、ベースラインの選択は非常に重要です。ML コンテキストでは、ベースラインは情報が少ないか情報が多いかのどちらかの仮想的なインスタンスに対応します。Shapley 値の計算中に、SageMaker Clarify はベースラインと特定のインスタンスの間に複数の新しいインスタンスを生成します。このインスタンスでは、特徴量がない場合は特徴量値をベースラインの値に設定することでモデル化し、特徴量がある場合は特徴量値を特定のインスタンスの値に設定することでモデル化します。したがって、すべての特徴がない場合はベースラインに対応し、すべての特徴がある場合は特定のインスタンスに対応します。

適切なベースラインはどのように選択すればよいでしょうか。多くの場合、情報コンテンツが非常に少ないベースラインを選択することが望ましいです。例えば、数値特徴では、中央値または平均値、カテゴリ特徴では、モードをとることで、トレーニングデータセットから平均的なインスタンスを構築できます。大学入試の例では、平均的な志願者に基づくベースラインの合格率と比較して、特定の志願者が合格した理由を説明することに興味があるかれません。指定しない場合、ベースラインは、入力データセットの K-means または K-prototypes を使用して SageMaker Clarify によって自動的に計算されます。

または、情報の多いベースラインに関する説明の生成を選択することもできます。大学入試のシナリオでは、特定の志願者が不合格になった理由を、類似の属性背景を持つ他の志願者と比較して説明したい場合があります。この場合、関心のある志願者、つまり類似の属性背景を持つ志願者を表すベースラインを選択できます。このように、情報の多いベースラインを使用することで、特定のモデル予測の特定の側面に分析を集中させることができます。操作できない人口統計の属性や他の特徴を、特定のインスタンスと同じ値に設定することで、評価の特徴を分離できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

非対称 Shapley 値

Autopilot の説明可能性