Shapley 값을 사용하는 기능 특성 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Shapley 값을 사용하는 기능 특성

SageMaker Clarify는 Shapley 값의 개념에 기반한 기능 어트리뷰션을 제공합니다. Shapley 값을 사용하여 모델 예측에 대한 각 특징의 기여도를 확인할 수 있습니다. 이러한 속성은 특정 예측에 대해 제공되며 모델 전체에 대해 글로벌 수준에서 제공될 수 있습니다. 예를 들어 대학 입시에 ML 모델을 사용한 경우 설명을 통해 GPA 또는 SAT 점수가 모델 예측에 가장 큰 책임이 있는 기능이었음을 판단할 수 있으며, 각 특징이 특정 학생에 대한 입학 결정을 내리는 데 얼마나 영향을 미쳤는지 확인할 수 있습니다.

SageMaker Clarify는 게임 이론에서 Shapley 값의 개념을 가져와 기계 학습 환경에 적용했습니다. Shapley 값은 게임에 대한 각 플레이어의 기여도를 정량화하는 방법을 제공하며, 따라서 게임에서 발생하는 총 이득을 플레이어의 기여도에 따라 플레이어에게 분배하는 수단을 제공합니다. 이러한 머신 러닝 맥락에서 Clarify는 주어진 인스턴스에 대한 모델 예측을 게임으로, SageMaker 모델에 포함된 기능을 플레이어로 취급합니다. 첫 번째 근사치의 경우, 모델에서 해당 특징을 삭제하거나 모델에서 다른 모든 특징을 삭제한 결과를 정량화하여 각 특징의 한계 기여도 또는 효과를 확인하고 싶을 수 있습니다. 그러나 이 접근법은 모델에 포함된 특징들이 서로 독립적이지 않은 경우가 많다는 점을 고려하지 않습니다. 예를 들어, 두 기능의 상관 관계가 높은 경우 특징 중 하나를 삭제해도 모델 예측이 크게 바뀌지 않을 수 있습니다.

이러한 잠재적 종속성을 해결하려면 Shapley 값에 따라 가능한 각 특징조합(또는 조합)의 결과를 고려하여 각 특징의 중요도를 결정해야 합니다. d개의 특징을 고려할 때, 이러한 특징 조합이 가능한 것은 2d이며, 각 특징 조합은 잠재적 모델에 해당합니다. 주어진 특징 f에 대한 특성을 결정하려면 f를 포함하지 않는 모든 특징 조합(및 관련 모델)에서 f 포함할 때의 한계 기여도를 고려하여 평균을 구하세요. Shapley 값은 바람직한 특정 속성을 충족하는 각 특징의 기여도 또는 중요도를 지정하는 고유한 방법이라는 것을 알 수 있습니다. 특히 각 특징의 Shapley 값의 합계는 모델의 예측치와 기능이 없는 더미 모델 간의 차이에 해당합니다. 그러나 d의 합리적인 값(예: 50 특징)의 경우에도 2d의 가능한 모델을 훈련시키는 것은 계산상 불가능하고 비실용적입니다. 따라서 SageMaker Clarify는 다양한 근사치 기법을 사용해야 합니다. 이를 위해 SageMaker Clarify는 이러한 근사치를 통합하고 추가 최적화를 통해 커널 SHAP 알고리즘의 확장 가능하고 효율적인 구현을 고안한 SHAP (Shapley Additive Explaations) 를 사용합니다.

Shapley 값에 대한 추가 정보는 모델 예측 해석에 대한 통합 접근 방식을 참조하세요.