텍스트 분류를 위한 데이터 세트 형식 및 목표 지표 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

텍스트 분류를 위한 데이터 세트 형식 및 목표 지표

이 섹션에서는 텍스트 분류에 사용되는 데이터 세트의 사용 가능한 형식뿐 아니라 기계 러닝 모델 후보의 예측 품질을 평가하는 데 사용되는 지표에 대해 알아봅니다. 후보에 대해 계산된 지표는 다양한 MetricDatum유형을 사용하여 지정됩니다.

데이터 세트 형식

Autopilot은 CSV 파일 또는 Parquet 파일 형식의 테이블 형식 데이터를 지원합니다. 테이블 형식 데이터의 경우 각 열에는 특정 데이터 유형의 기능이 포함되고 각 행에는 관측값이 포함됩니다. 이 두 파일 형식의 속성은 상당히 다릅니다.

  • CSV (comma-separated-values) 는 사람이 읽을 수 있는 일반 텍스트로 데이터를 저장하는 행 기반 파일 형식입니다. CSV () 는 다양한 응용 프로그램에서 지원되므로 데이터 교환에 널리 사용됩니다.

  • Parquet는 행 기반 파일 형식보다 데이터를 더 효율적으로 저장하고 처리하는 열 기반 파일 형식입니다. 따라서 빅 데이터 문제에 더 나은 옵션입니다.

열에 허용되는 데이터 유형에는 숫자, 카테고리, 텍스트 등이 있습니다.

Autopilot은 최대 수백 GB의 대규모 데이터 세트를 기반으로 기계 학습 모델을 구축할 수 있도록 지원합니다. 입력 데이터세트의 기본 리소스 한도 및 이를 늘리는 방법에 대한 자세한 내용은 Amazon SageMaker Autopilot 할당량을 참조하십시오.

목표 지표

다음 목록에는 텍스트 분류를 위한 모델의 성능을 측정하는 데 현재 사용할 수 있는 지표의 이름이 나와 있습니다.

Accuracy

전체 (올바르게 및 잘못) 분류된 항목 수 대비 올바르게 분류된 항목 수의 비율입니다. 정확도는 예측된 클래스 값이 실제 값에 얼마나 가까운지를 측정합니다. 정확도 지표의 값은 0에서 1 사이입니다. 값 1은 완벽한 정확도를 나타내고, 0은 완벽한 부정확도를 나타냅니다.