모델 미리 보기 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모델 미리 보기

참고

다음 기능은 테이블 형식의 데이터 세트로 빌드된 사용자 지정 모델에만 사용할 수 있습니다. 다중 카테고리 텍스트 예측 모델도 제외됩니다.

SageMaker Canvas는 빌드를 시작하기 전에 모델을 미리 보고 데이터를 검증할 수 있는 도구를 제공합니다. 다음 기능에는 모델의 정확도 미리 보기, 모델 구축 중 문제 방지를 위한 데이터 세트 검증, 모델의 무작위 샘플 크기 변경 등이 포함됩니다.

모델 미리 보기

Amazon SageMaker Canvas에서는 모델 미리 보기를 선택하여 모델을 구축하기 전에 데이터에서 통찰력을 얻을 수 있습니다. 예를 들어, 각 열의 데이터가 어떻게 분포되어 있는지 확인할 수 있습니다. 범주형 데이터를 사용하여 구축한 모델의 경우 모델 미리 보기를 선택하여 모델이 데이터를 얼마나 잘 분석할 수 있는지에 대한 예상 정확도 예측을 생성할 수도 있습니다. 빠른 빌드표준 빌드의 정확도는 모델이 실제 데이터에서 얼마나 잘 작동할 수 있는지를 나타내며 일반적으로 예상 정확도보다 높습니다.

Amazon SageMaker Canvas는 모델을 구축하는 동안 데이터 세트의 누락된 값을 자동으로 처리합니다. 이는 데이터 세트에 있는 인접 값을 사용하여 누락된 값을 유추합니다.

Canvas의 모델에 대한 빌드 탭의 스크린샷입니다.

데이터 검증

모델을 구축하기 전에 SageMaker Canvas는 데이터 세트에 빌드 실패를 일으킬 수 있는 문제가 있는지 확인합니다. SageMaker Canvas에서 문제가 발견되면 모델을 빌드하기 전에 빌드 페이지에서 경고를 표시합니다.

데이터 검증을 선택하여 데이터 세트의 문제 목록을 볼 수 있습니다. 그런 다음 빌드를 시작하기 전에 SageMaker Canvas 데이터 준비 기능이나 자체 도구를 사용하여 데이터세트를 수정할 수 있습니다. 데이터 세트 관련 문제를 해결하지 않으면 빌드가 실패합니다.

문제를 해결하기 위해 데이터 세트를 변경하는 경우 빌드를 시도하기 전에 데이터 세트를 다시 검증할 수 있습니다. 빌드하기 전에 데이터 세트를 다시 검증하는 것이 좋습니다.

다음 표에는 SageMaker Canvas가 데이터세트에서 확인하는 문제와 이를 해결하는 방법이 나와 있습니다.

문제 해결 방법

데이터에 대한 잘못된 모델 유형

다른 모델 유형을 시도하거나 다른 데이터 세트를 사용하세요.

타겟 열에 값이 누락됨

누락된 값을 바꾸거나, 누락된 값이 있는 행을 삭제하거나, 다른 데이터 세트를 사용하세요.

대상 열에 고유 레이블이 너무 많음

대상 열에 올바른 열을 사용했는지 또는 다른 데이터 세트를 사용하세요.

대상 열에 숫자가 아닌 값이 너무 많음

다른 대상 열을 선택하거나, 다른 모델 유형을 선택하거나, 다른 데이터 세트를 사용하세요.

하나 이상의 열 이름에 이중 밑줄이 있음

이중 밑줄을 제거하도록 열 이름을 바꾸고 다시 시도하세요.

데이터 세트에 완전한 행이 없음

누락된 값을 바꾸거나 다른 데이터 세트를 사용하세요.

데이터의 행 수에 비해 고유 레이블이 너무 많음

올바른 대상 열을 사용하고 있는지 확인하거나, 데이터 세트의 행 수를 늘리거나, 유사한 레이블을 통합하거나, 다른 데이터 세트를 사용하세요.

무작위 샘플

SageMaker Canvas는 무작위 샘플링 방법을 사용하여 데이터세트를 샘플링합니다. 무작위 샘플 방법을 사용하면 각 행이 샘플로 선택될 확률이 동일하다는 것을 의미합니다. 미리 보기에서 열을 선택하여 평균, 최빈값 등 무작위 샘플에 대한 요약 통계를 얻을 수 있습니다.

기본적으로 SageMaker Canvas는 20,000개 이상의 행이 있는 데이터세트에 대해 데이터세트에서 20,000행의 임의 샘플 크기를 사용합니다. 행 수가 20,000개보다 작은 데이터 세트의 경우 기본 샘플 크기는 데이터 세트의 행 수입니다. SageMaker Canvas 애플리케이션의 빌드 탭에서 임의 샘플을 선택하여 샘플 크기를 늘리거나 줄일 수 있습니다. 슬라이더를 사용하여 원하는 샘플 크기를 선택한 다음 업데이트를 선택하여 샘플 크기를 변경할 수 있습니다. 데이터 세트에 대해 선택할 수 있는 최대 샘플 크기는 40,000개 행이고, 최소 샘플 크기는 500개 행입니다. 큰 샘플 크기를 선택하면 데이터 세트 미리 보기 및 요약 통계를 다시 로드하는 데 몇 분 정도 걸릴 수 있습니다.

빌드 페이지에는 데이터 세트의 100개 행에 대한 미리 보기가 표시됩니다. 샘플 크기가 데이터 세트와 같은 경우 미리 보기에는 데이터 세트의 처음 100개 행이 사용됩니다. 그렇지 않으면 미리보기에는 무작위 샘플의 처음 100개 행이 사용됩니다.