説明可能性のための SHAP ベースライン - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

説明可能性のための SHAP ベースライン

説明とは一般的に対比的なものです (つまり、この場合はベースラインからの逸脱について説明します)。その結果、同じモデルの予測でも、ベースラインが異なれば異なる説明が得られることが期待できます。したがって、ベースラインの選択は非常に重要です。ML コンテキストでは、ベースラインは情報が少ないか情報が多いかのどちらかの仮想的なインスタンスに対応します。シャープレイ値の計算中、 SageMaker Clarifyはベースラインと特定のインスタンスの間にいくつかの新しいインスタンスを生成します。これらのインスタンスでは、特徴がない場合はベースラインの特徴値に設定され、特徴の存在は特徴値を特定のインスタンスの特徴値に設定することでモデル化されます。したがって、すべての特徴がない場合はベースラインに対応し、すべての特徴がある場合は特定のインスタンスに対応します。

適切なベースラインはどのように選択すればよいでしょうか。多くの場合、情報コンテンツが非常に少ないベースラインを選択することが望ましいです。例えば、数値特徴では、中央値または平均値、カテゴリ特徴では、モードをとることで、トレーニングデータセットから平均的なインスタンスを構築できます。大学入試の例では、平均的な志願者に基づくベースラインの合格率と比較して、特定の志願者が合格した理由を説明することに興味があるかれません。指定しない場合、ベースラインは入力データセットの K-means または K-prototypes を使用して SageMaker Clarify によって自動的に計算されます。

または、情報の多いベースラインに関する説明の生成を選択することもできます。大学入試のシナリオでは、特定の志願者が不合格になった理由を、類似の属性背景を持つ他の志願者と比較して説明したい場合があります。この場合、関心のある志願者、つまり類似の属性背景を持つ志願者を表すベースラインを選択できます。このように、情報の多いベースラインを使用することで、特定のモデル予測の特定の側面に分析を集中させることができます。操作できない人口統計の属性や他の特徴を、特定のインスタンスと同じ値に設定することで、評価の特徴を分離できます。