Autopilot 모델 성능 보고서 보기

Amazon SageMaker AI 모델 품질 보고서(성능 보고서라고도 함)는 AutoML 작업에서 생성된 최상의 모델 후보에 대한 인사이트와 품질 정보를 제공합니다. 여기에는 작업 세부 정보, 모델 문제 유형, 목표 함수 및 문제 유형과 관련된 정보 및 기타 정보가 포함됩니다. 이 안내서는 Amazon SageMaker Autopilot 성능 지표를 그래픽으로 보는 방법 또는 지표를 JSON 파일의 원시 데이터로 보는 방법을 보여줍니다.

예를 들어, 분류 문제의 모델 품질 보고서에는 다음이 포함됩니다.

혼동 행렬
수신기 작동 특성 곡선(AUC) 아래 영역
위양성과 위음성을 이해하기 위한 정보
True Positive와 위양성의 절충
정밀도와 재현율의 절충

또한 Autopilot은 모든 후보 모델에 대한 성능 지표를 제공합니다. 이러한 지표는 모든 훈련 데이터를 사용하여 계산되며 모델 성능을 추정하는 데 사용됩니다. 주요 작업 영역에는 기본적으로 이러한 지표가 포함됩니다. 지표 유형은 해결해야 하는 문제 유형에 따라 결정됩니다.

Autopilot에서 지원하는 사용 가능한 지표 목록은 Amazon SageMaker API 참조 설명서를 참조하세요.

관련 지표를 기준으로 모델 후보를 정렬하면 비즈니스 요구 사항에 맞는 모델을 선택하고 배포하는 데 도움이 됩니다. 이러한 지표에 대한 정의는 Autopilot 후보 지표 주제를 참조하세요.

Autopilot 작업의 성능 보고서를 보려면 다음 단계를 따르세요.

최상위 Amazon SageMaker Studio Classic 탐색 메뉴를 보려면 왼쪽 탐색 창에서 홈 아이콘 을 선택합니다.
기본 작업 영역에서 AutoML 카드를 선택합니다. 그러면 새 Autopilot 탭이 열립니다.
이름 섹션에서 검사하려는 세부 정보가 있는 Autopilot 작업을 선택합니다. 그러면 새 Autopilot 작업 탭이 열립니다.
Autopilot 작업 패널에는 모델 이름 아래에 각 모델의 목표 지표를 포함한 지표 값이 나열됩니다. 최적 모델은 모델 이름 아래 목록 상단에 나열되며 모델 탭에 강조 표시됩니다.
1. 모델 세부 정보를 검토하려면 관심 있는 모델을 선택하고 모델 세부 정보 보기를 선택합니다. 그러면 새 모델 세부 정보 탭이 열립니다.
설명 가능성과 아티팩트 탭 사이에 있는 성능 탭을 선택합니다.
1. 탭의 상단 오른쪽에 있는 성능 보고서 다운로드 버튼의 아래쪽 화살표를 선택합니다.
2. 아래쪽 화살표는 Autopilot 성능 지표를 볼 수 있는 두 가지 옵션을 제공합니다.
  1. 성능 보고서의 PDF를 다운로드하여 지표를 그래픽으로 볼 수 있습니다.
  2. 지표를 원시 데이터로 보고 JSON 파일로 다운로드할 수 있습니다.

SageMaker Studio Classic에서 AutoML 작업을 생성 및 실행하는 방법에 대한 자세한 내용은 AutoML API를 사용하여 테이블 형식 데이터에 대한 회귀 또는 분류 작업 생성를 참조하세요.

성능 보고서에는 다음 두 섹션이 있습니다. 첫 번째에는 모델을 생성한 Autopilot 작업에 대한 세부 정보가 포함되어 있습니다. 두 번째 섹션에는 모델 품질 보고서가 포함되어 있습니다.

Autopilot 작업 세부 정보

보고서의 첫 번째 섹션에서는 모델을 생성한 Autopilot 작업에 대한 몇 가지 일반적인 정보를 제공합니다. 이러한 작업 세부 정보에는 다음 정보가 포함되어 있습니다.

Autopilot 후보 이름
Autopilot 작업 이름
문제 유형
목표 지표
최적화 방향

모델 품질 보고서

모델 품질 정보는 Autopilot 모델 인사이트를 통해 생성됩니다. 생성되는 보고서 내용은 보고서에서 다루는 문제 유형(회귀, 바이너리 분류 또는 멀티클래스 분류)에 따라 달라집니다. 보고서는 평가 데이터세트에 포함된 행 수와 평가가 발생한 시간을 지정합니다.

지표 테이블

모델 품질 보고서의 첫 번째 부분에는 지표 테이블이 포함되어 있습니다. 이는 모델이 해결한 문제 유형에 적합합니다.

다음 이미지는 회귀 문제에 대해 Autopilot으로 생성한 지표 테이블의 예제입니다. 지표 이름, 값 및 표준 편차를 보여줍니다.

Amazon SageMaker Autopilot 모델 인사이트 회귀 지표 보고서 예제.

다음 이미지는 멀티클래스 분류 문제에 대해 Autopilot으로 생성한 지표 테이블의 예제입니다. 지표 이름, 값 및 표준 편차를 보여줍니다.

Amazon SageMaker Autopilot 모델 인사이트 멀티클래스 분류 지표 보고서 예제.

그래픽 모델 성능 정보

모델 품질 보고서의 두 번째 부분에는 모델 성능을 평가하는 데 도움이 되는 그래픽 정보가 포함되어 있습니다. 이 섹션의 내용은 모델링에 사용된 문제 유형에 따라 달라집니다.

수신기 작동 특성 곡선 아래 영역

수신기 작동 특성 곡선 아래 영역은 True Positive와 위양성 비율 간의 균형을 나타냅니다. 이는 바이너리 분류 모델에 사용되는 업계 표준 정확도 지표입니다. AUC(곡선 아래 영역)에서는 부정적인 예보다 긍정적인 예에 대해 더 높은 점수를 예측하는 모델의 기능을 측정합니다. 따라서 AUC 지표는 가능한 모든 분류 임곗값에서 모델 성능을 집계하여 측정 값을 제공합니다.

AUC 지표에서는 0 ~ 1의 십진수 값을 반환합니다. 1에 가까운 AUC 값은 정확성이 높은 기계 학습 모델을 가리킵니다. 값이 0.5에 가까우면 모델 성능이 무작위로 추측하는 것보다 낫지 않다는 것을 나타냅니다. AUC 값이 0에 가까우면 모델이 올바른 패턴을 학습했지만 예측이 최대한 부정확하다는 것을 나타냅니다. 값이 0에 가까우면 데이터에 문제가 있음을 알 수 있습니다. AUC 지표에 대한 자세한 내용은 Wikipedia의 수신기 작동 특성 문서를 참조하세요.

다음은 바이너리 분류 모델로 예측한 결과를 평가하기 위한 수신기 작동 특성 곡선 그래프 아래 영역의 예제입니다. 가는 점선은 무작위 수준의 추측을 분류하는 모델이 점수를 매기는 수신기 작동 특성 곡선 아래 영역을 나타내며 AUC 점수는 0.5입니다. 더 정확한 분류 모델의 곡선은 True Positive 비율이 위양성 비율을 초과하는 이 무작위 기준 위에 위치합니다. 바이너리 분류 모델의 성능을 나타내는 수신기 작동 특성 곡선 아래 영역은 두꺼운 실선으로 표시됩니다.

Amazon SageMaker Autopilot 수신기 작동 특성 곡선 아래 영역 예제.

그래프의 구성 요소 중 위양성 비율(FPR)과 진양성 비율(TPR)의 요약은 다음과 같이 정의됩니다.

올바른 예측
- 진양성(TP): 예측값이 1이고 실제 값도 1입니다.
- 진음성(TN): 예측 값이 0이고 실제 값도 0입니다.
잘못된 예측
- 위양성(FP): 예측 값은 1이지만 실제 값은 0입니다.
- 위음성(FN): 예측값은 0이고, 실제값은 1입니다.

위양성 비율(FPR)은 FP와 TN의 합에 대해 양성으로 잘못 예측된(FP) 진음성(TN)의 비율을 측정합니다. 범위는 0~1입니다. 값이 작을수록 예측 정확도가 더 높습니다.

FPR = FP/(FP+TN)

진양성 비율(TPR)은 진양성과 위음성(FN)의 합에 대해 양성으로 정확하게 예측된(TP) 진양성의 비율(TP)을 측정합니다. 범위는 0~1입니다. 값이 클수록 예측 정확도가 더 높습니다.

TPR = TP/(TP+FN)

혼동 행렬

혼동 행렬은 다양한 문제에 대한 바이너리 및 멀티클래스 분류에 대한 모델의 예측 정확도를 시각화하는 방법을 제공합니다. 모델 품질 보고서의 혼동 행렬에는 다음이 포함됩니다.

실제 레이블에 대한 정확한 예측과 잘못된 예측의 수와 백분율
왼쪽 상단에서 오른쪽 아래 모서리까지의 대각선 상의 정확한 예측 수 및 백분율
상단 오른쪽에서 왼쪽 아래 모서리까지의 대각선 상의 부정확한 예측의 수와 백분율

혼동 행렬의 부정확한 예측은 혼동 값입니다.

다음 다이어그램은 바이너리 분류 문제에 대한 혼동 행렬의 예를 보여줍니다. 여기에는 다음 정보가 포함됩니다.

세로축은 참 및 거짓 실제 레이블을 포함하는 두 행으로 구분됩니다.
가로 축은 모델에서 예측한 참 및 거짓 레이블을 포함하는 두 개의 열로 나뉩니다.
색상 막대는 많은 수의 샘플에 어두운 색조를 할당하여 각 범주에서 분류된 값의 수를 시각적으로 나타냅니다.

이 예제에서 모델은 실제 2817개의 잘못된 값을 정확하게 예측하고 353개의 실제 참값을 정확하게 예측했습니다. 이 모델은 130개의 실제 참값을 거짓으로, 33개의 실제 거짓값을 참으로 잘못 예측했습니다. 색조 차이는 데이터세트가 균형을 이루지 못했다는 것을 나타냅니다. 불균형은 실제 참 레이블보다 실제 거짓 레이블이 더 많기 때문입니다.

Amazon SageMaker Autopilot 바이너리 혼동 행렬 예제.

다음 다이어그램은 멀티클래스 분류 문제에 대한 혼동 행렬의 예를 보여줍니다. 모델 품질 보고서의 혼동 행렬에는 다음이 포함됩니다.

세로축은 서로 다른 세 개의 실제 레이블을 포함하는 세 개의 행으로 나뉩니다.
가로 축은 모델에서 예측한 레이블을 포함하는 세 개의 열로 나뉩니다.
색상 막대는 많은 수의 샘플에 어두운 색조를 할당하여 각 범주에서 분류된 값의 수를 시각적으로 나타냅니다.

아래 예제에서 모델은 레이블 f의 실제값 354, 레이블 i의 실제값 1094, 레이블 m의 실제값 852를 정확하게 예측했습니다. 색조의 차이는 f 또는 m 값에 대한 것보다 i 값에 대한 레이블이 많기 때문에 데이터세트의 균형이 맞지 않는다는 것을 나타냅니다.

Amazon SageMaker Autopilot 멀티클래스 혼동 행렬 예제.

제공된 모델 품질 보고서의 혼동 행렬은 멀티클래스 분류 문제 유형에 대해 최대 15개의 레이블을 수용할 수 있습니다. 레이블에 해당하는 행에 Nan 값이 표시되면, 모델 예측을 확인하는 데 사용되는 검증 데이터세트에 해당 레이블의 데이터가 포함되어 있지 않다는 의미입니다.

이득 곡선

바이너리 분류에서 이득 곡선은 데이터세트의 백분율을 사용하여 양수 레이블을 찾을 때의 누적 이익을 예측합니다. 이 이득 값은 훈련 중에 각 십분위수에서 양수 관측치의 누적 수를 데이터에 있는 양수 관측치의 총 수로 나누어 계산합니다. 훈련 중에 만든 분류 모델이 보이지 않는 데이터를 대표하는 경우 이득 곡선을 사용하여 양수 레이블의 백분율을 얻기 위해 목표로 삼아야 하는 데이터의 백분율을 예측할 수 있습니다. 사용된 데이터세트의 비율이 높을수록 양수 레이블이 발견된 비율도 높아집니다.

다음 예제 그래프에서 이득 곡선은 기울기가 변하는 선입니다. 직선은 데이터세트에서 무작위로 일정 비율의 데이터를 선택하여 찾은 양수 레이블의 백분율입니다. 데이터세트의 20%를 대상으로 지정하면 40% 이상의 양수 레이블이 발견될 것으로 예상됩니다. 예를 들어, 이득 곡선을 사용하여 마케팅 캠페인 성과를 결정하는 것을 고려해 볼 수 있습니다. 이득 곡선 예제를 사용하면 동네 주민 중 83%가 쿠키를 구매한다고 가정했을 때 해당 지역의 약 60%에게 광고를 보내는 셈이 됩니다.

Amazon SageMaker Autopilot 이득 곡선 예제(백분율 및 이득 값 포함)

리프트 곡선

바이너리 분류에서 리프트 곡선은 훈련된 모델을 사용하여 양수 레이블을 찾을 확률을 무작위 추측과 비교해서 예측하는 향상을 보여줍니다. 리프트 값은 훈련 중에 각 십분위수의 양수 레이블 비율에 대한 백분율 이득 비율을 사용하여 계산됩니다. 훈련 중에 만든 모델이 보이지 않는 데이터를 나타내는 경우 리프트 곡선을 사용하여 무작위 추측보다 모델 사용에 이점이 있다는 것을 예측하세요.

다음 예제 그래프에서 리프트 곡선은 기울기가 변하는 선입니다. 직선은 데이터세트에서 해당 백분율을 임의로 선택하는 것과 관련된 리프트 곡선입니다. 모델의 분류 레이블로 데이터세트의 40%를 대상으로 지정하면 보이지 않는 데이터의 40%를 랜덤하게 선택하여 찾은 양수 레이블 수보다 약 1.7배를 찾을 수 있을 것으로 예상됩니다.

Amazon SageMaker Autopilot 리프트 곡선 예제(백분율 및 리프트 값 포함)

정밀도-재현율 곡선

정밀도-재현율 곡선은 바이너리 분류 문제에 대한 정밀도와 재현율 간의 절충을 나타냅니다.

정밀도는 모든 긍정적 예측(TP 및 위양성) 중에서 양수로 예측되는 실제 양수(TP)의 비율을 측정합니다. 범위는 0~1입니다. 값이 클수록 예측된 값의 정확도가 더 높습니다.

정밀도 = TP/(TP+FP)

재현율은 모든 실제 긍정적 예측(TP 및 위양성) 중에서 양수로 예측되는 실제 양수(TP)의 비율을 측정합니다. 이것을 민감도 또는 진양성 비율로도 알려져 있습니다. 범위는 0~1입니다. 값이 클수록 표본에서 양수 값을 더 잘 감지할 수 있습니다.

재현율 = TP/(TP+FN)

분류 문제의 목적은 가능한 한 많은 요소에 올바르게 레이블을 지정하는 것입니다. 재현율은 높지만 정밀도가 낮은 시스템은 높은 비율의 위양성을 반환합니다.

다음 그림은 모든 이메일을 스팸으로 표시하는 스팸 필터를 보여줍니다. 재현율은 위음성을 측정하지 않기 때문에 이 경우 재현율이 높지만 정밀도는 낮습니다.

문제의 위양성 값에 대한 페널티는 낮지만, 진양성 결과를 놓쳤을 때 페널티가 높은 경우 정밀도보다 재현율에 더 많은 가중치를 부여하세요. 자율 주행 차량에서 임박한 충돌을 감지하는 경우를 예로 들 수 있습니다.

모든 샘플을 양성으로 모델링하는 고재현율 저정밀도 시스템의 Autopilot 예시

고정밀도 저재현율 시스템은 높은 비율의 위음성 결과를 반환합니다. 모든 이메일을 권장(스팸 아님)으로 표시하는 스팸 필터는 정밀도가 높지만 재현율은 낮습니다. 정확도가 위음성을 측정하지 않기 때문입니다.

위음성 값에 대한 페널티는 낮지만, 진음성 결과를 놓쳤을 때 페널티가 높은 문제의 경우 재현율보다 정밀도에 더 많은 비중을 두세요. 세무 감사를 위해 의심스러운 필터에 플래그를 지정하는 경우를 예로 들 수 있습니다.

다음 그림은 정밀도가 위음성을 측정하지 않기 때문에 정밀도가 높지만 재현율은 낮은 스팸 필터를 보여줍니다.

모든 샘플을 음성으로 모델링하는 고정밀도 및 저재현율 시스템의 Autopilot 예제.

높은 정밀도와 높은 재현율을 모두 갖춘 예측을 수행하는 모델은 올바르게 레이블이 지정된 결과를 많이 생성합니다. 자세한 내용은 Wikipedia의 정밀도 및 재현율 문서를 참조하세요.

정밀도-재현율 곡선 아래 영역(AUPRC)

바이너리 분류 문제의 경우 Amazon SageMaker Autopilot에 정밀도-재현율 곡선 아래 영역(AUPRC)의 그래프가 포함되어 있습니다. AUPRC 지표는 가능한 모든 분류 임곗값에서 모델 성능을 집계하여 측정하며 정밀도와 재현율을 모두 사용합니다. AUPRC는 진음성의 수를 고려하지 않습니다. 따라서 데이터에 진음성 수가 많은 경우 모델 성능을 평가할 때 유용할 수 있습니다. 희귀 돌연변이를 포함하는 유전자를 모델링하는 경우를 예로 들 수 있습니다.

다음 그림은 AUPRC 그래프의 예제입니다. 최고값에서의 정밀도는 1이고 재현율은 0입니다. 그래프의 오른쪽 하단에서 재현율은 가장 높은 값 1이고 정밀도는 0입니다. 이 두 점 사이의 AUPRC 곡선은 서로 다른 임곗값에서 정밀도와 재현율 간의 절충을 보여줍니다.

정밀도-재현율 곡선은 서로 다른 임곗값에서의 정밀도와 재현율 간의 절충을 나타냅니다.

실제 도표와 예측 도표 비교

실제 대 예측 도표는 실제 모델 값과 예측 모델 값 간의 차이를 보여줍니다. 다음 예제 그래프에서 실선은 선형 최적 적합선입니다. 모델의 정확도가 100%인 경우 각 예측점은 해당하는 실제 지점과 같고 이 최적 적합선 위에 놓이게 됩니다. 최적 적합선으로부터의 거리는 모델 오류를 시각적으로 나타냅니다. 최적 적합선에서 멀어질수록 모델 오차가 커집니다.

표준화 잔차 도표

표준화 잔차 도표에는 다음과 같은 통계 용어가 포함됩니다.

residual: (원시) 잔차는 모델에서 예측한 실제값과 예측값 간의 차이를 보여줍니다. 차이가 클수록 잔차 값도 커집니다.
standard deviation: 표준 편차는 값이 평균 값과 어떻게 다른지를 측정한 것입니다. 표준 편차가 높으면 많은 값이 평균 값과 크게 다르다는 것을 나타냅니다. 표준 편차가 낮으면 많은 값이 평균 값에 가깝다는 것을 나타냅니다.
standardized residual: 표준화 잔차는 원시 잔차를 표준 편차로 나눕니다. 표준화 잔차는 표준 편차 단위를 가지며 원시 잔차의 규모 차이에 관계없이 데이터의 이상치를 식별하는 데 유용합니다. 표준화 잔차가 다른 표준화 잔차보다 훨씬 작거나 크면 모델이 이러한 관측치에 잘 맞지 않는다는 뜻입니다.

표준화 잔차 도표는 관측값과 예상 값 간의 차이 강도를 측정합니다. 실제 예측값은 x축에 표시됩니다. 일반적으로 값이 절대값 3보다 큰 점을 이상치로 간주합니다.

다음 예제 그래프는 수평 축에서 0을 중심으로 많은 수의 표준화 잔차가 모여 있음을 보여줍니다. 값이 0에 가까울수록 모델이 이러한 점에 잘 맞음을 나타냅니다. 도표의 위쪽과 아래쪽으로 향하는 점은 모델이 잘 예측하지 못합니다.

Amazon SageMaker Autopilot 표준화 잔차 도표 예제.

잔차 히스토그램

잔차 히스토그램에는 다음과 같은 통계 용어가 포함됩니다.

residual: (원시) 잔차는 모델에서 예측한 실제값과 예측값 간의 차이를 보여줍니다. 차이가 클수록 잔차 값도 커집니다.
standard deviation: 표준 편차는 값이 평균 값과 얼마나 다른지를 측정한 것입니다. 표준 편차가 높으면 많은 값이 평균 값과 크게 다르다는 것을 나타냅니다. 표준 편차가 낮으면 많은 값이 평균 값에 가깝다는 것을 나타냅니다.
standardized residual: 표준화 잔차는 원시 잔차를 표준 편차로 나눕니다. 표준화 잔차의 단위는 표준 편차 단위입니다. 원시 잔차의 규모 차이에 관계없이 데이터의 이상치를 식별하는 데 유용합니다. 표준화 잔차가 다른 표준화 잔차보다 훨씬 작거나 크면 모델이 이러한 관측치에 잘 맞지 않는다는 뜻일 수 있습니다.
histogram: 히스토그램은 값이 얼마나 자주 발생했는지를 보여주는 그래프입니다.

잔차 히스토그램은 표준화 잔차 값의 분포를 보여줍니다. 종 모양으로 분포되고 0에 중심을 둔 히스토그램은 모델이 대상 값의 특정 범위를 체계적으로 과대 예측하거나 과소 예측하지 않음을 나타냅니다.

다음 그림에서 표준화 잔차 값은 모델이 데이터를 잘 적합시키고 있음을 나타냅니다. 그래프에 중심값에서 멀리 떨어진 값이 표시되면 해당 값이 모델에 잘 맞지 않는다는 의미입니다.

표준화 잔차 값이 0에 가까우면 이는 모델이 데이터를 잘 적합시킨다는 것을 나타냅니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모델 세부 정보 보기

노트북 생성