텍스트 분류를 위한 데이터세트 형식 및 목표 지표

이 섹션에서는 텍스트 분류에 사용되는 데이터세트의 사용 가능한 형식뿐 아니라 기계 러닝 모델 후보의 예측 품질을 평가하는 데 사용되는 지표에 대해 알아봅니다. 후보에 대해 계산된 지표는 MetricDatum 유형의 배열을 사용하여 지정됩니다.

데이터세트 형식

Autopilot은 CSV 파일 또는 Parquet 파일 형식의 테이블 형식 데이터를 지원합니다. 테이블 형식 데이터의 경우 각 열에는 특정 데이터 유형의 기능이 포함되고 각 행에는 관측값이 포함됩니다. 이 두 파일 형식의 속성은 상당히 다릅니다.

CSV(쉼표로 구분된 값)는 사람이 읽을 수 있는 일반 텍스트로 데이터를 저장하는 행 기반 파일 형식으로, 다양한 범위의 애플리케이션에서 지원되므로 데이터 교환에 널리 사용됩니다.
Parquet는 행 기반 파일 형식보다 데이터를 더 효율적으로 저장하고 처리하는 열 기반 파일 형식입니다. 따라서 빅 데이터 문제에 더 나은 옵션입니다.

열에 허용되는 데이터 유형에는 숫자, 카테고리, 텍스트 등이 있습니다.

Autopilot은 최대 수백 GB의 대규모 데이터세트를 기반으로 기계 학습 모델을 구축할 수 있도록 지원합니다. 입력 데이터세트의 기본 리소스 제한 및 이를 늘리는 방법에 대한 자세한 내용은 Amazon SageMaker Autopilot 할당량을 참조하세요.

다음 목록에는 텍스트 분류를 위한 모델의 성능을 측정하는 데 현재 사용할 수 있는 지표의 이름이 나와 있습니다.

Accuracy: 전체 (올바르게 및 잘못) 분류된 항목 수 대비 올바르게 분류된 항목 수의 비율입니다. 정확도는 예측된 클래스 값이 실제 값에 얼마나 가까운지를 측정합니다. 정확도 지표의 값은 0에서 1 사이입니다. 값 1은 완벽한 정확도를 나타내고, 0은 완벽한 부정확도를 나타냅니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

AutoML API를 사용하여 텍스트 분류 작업 생성

예측을 위한 Autopilot 모델 배포