기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
멀티레이블 모드
멀티레이블 모드에서 개별 클래스는 상호 배타적이지 않은 서로 다른 범주를 나타냅니다. 멀티레이블 분류는 각 문서에 하나 이상의 클래스를 지정합니다. 예를 들어 한 영화를 다큐멘터리로 분류하고 다른 영화를 공상 과학, 액션, 코미디로 분류할 수 있습니다.
학습의 경우 멀티레이블 모드는 최대 100개의 고유한 클래스를 포함하는 최대 100만 개의 예제를 지원합니다.
일반 텍스트 모델
일반 텍스트 모델을 훈련하려면 레이블이 지정된 훈련 데이터를 SageMaker Ground Truth의 CSV 파일 또는 증강 매니페스트 파일로 제공할 수 있습니다.
CSV 파일
훈련 분류기에 CSV 파일을 사용하는 방법에 대한 일반적인 내용은 섹션을 참조하세요CSV 파일.
훈련 데이터를 2열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있고 두 번째 열에는 이러한 클래스에 대한 예제 텍스트 문서가 들어 있습니다. 첫 번째 열에 클래스를 두 개 이상 입력하려면 각 클래스 사이에 구분 기호(예: |)를 사용합니다.
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
다음 예제는 영화 초록의 장르를 감지하도록 사용자 지정 분류기를 훈련하는 CSV 파일의 한 행을 보여줍니다.
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
클래스 이름 사이의 기본적인 구분 기호는 파이프(|) 입니다. 하지만 다른 문자를 구분 기호로 사용할 수도 있습니다. 구분 기호는 사용자의 클래스 이름의 모든 문자와 구별되어야 합니다. 예를 들어 클래스가 CLASS_1, CLASS_2 및 CLASS_3인 경우 밑줄(_)은 클래스 이름의 일부입니다. 따라서 클래스 이름을 구분할 때 밑줄을 구분 기호로 사용하지 마십시오.
증강 매니페스트 파일
분류기 학습을 위한 증강 매니페스트 파일 사용에 대한 일반적인 내용은 증강 매니페스트 파일를 참조하세요.
일반 텍스트 문서의 경우 증강 매니페스트 파일의 각 줄은 완전한 JSON 객체입니다. 여기에는 Ground Truth의 학습 문서, 클래스 이름 및 기타 메타데이터가 포함됩니다. 다음 예제는 영화 요약에서 장르를 감지하도록 사용자 지정 분류기를 학습시키는 데 사용되는 증강 매니페스트 파일입니다.
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
다음 예제에서는 가독성을 위해 형식이 지정된 증강 매니페스트 파일의 JSON 객체 하나를 보여줍니다.
{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }
이 예제에서 source
속성은 학습 문서의 텍스트를 제공하고 MultiLabelJob
속성은 분류 목록에 있는 여러 클래스의 색인을 할당합니다. MultiLabelJob
메타데이터의 작업 이름은 Ground Truth에서 레이블 지정 작업에 대해 정의한 이름입니다.
네이티브 문서 모델
기본 문서 모델은 기본 문서(예: PDF, DOCX 및 이미지 파일)로 훈련하는 모델입니다. 레이블이 지정된 훈련 데이터를 CSV 파일로 제공합니다.
CSV 파일
훈련 분류기에 CSV 파일을 사용하는 방법에 대한 일반적인 내용은 섹션을 참조하세요CSV 파일.
훈련 데이터를 3열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있습니다. 두 번째 열에는 이러한 클래스의 예제 문서의 파일 이름이 들어 있습니다. 세 번째 열에는 페이지 번호가 들어 있습니다. 예제 문서가 이미지인 경우 페이지 번호는 선택 사항입니다.
첫 번째 열에 클래스를 두 개 이상 입력하려면 각 클래스 사이에 구분 기호(예: |)를 사용합니다.
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
다음 예제에서는 영화 초록의 장르를 감지하도록 사용자 지정 분류기를 훈련하는 CSV 파일의 한 행을 보여줍니다. PDF 파일의 2페이지에는 코미디/십대 영화의 예가 포함되어 있습니다.
COMEDY|TEEN,movie-summary-1.pdf,2
클래스 이름 사이의 기본적인 구분 기호는 파이프(|) 입니다. 하지만 다른 문자를 구분 기호로 사용할 수도 있습니다. 구분 기호는 사용자의 클래스 이름의 모든 문자와 구별되어야 합니다. 예를 들어 클래스가 CLASS_1, CLASS_2 및 CLASS_3인 경우 밑줄(_)은 클래스 이름의 일부입니다. 따라서 클래스 이름을 구분할 때 밑줄을 구분 기호로 사용하지 마십시오.