멀티클래스 모드

멀티클래스 모드에서 분류는 각 문서에 하나의 클래스를 할당합니다. 개별 클래스는 상호 배타적입니다. 예를 들어 영화를 코미디 또는 SF로 분류할 수 있지만 두 가지 모두로 분류할 수는 없습니다.

참고

Amazon Comprehend 콘솔에서는 멀티클래스 모드를 단일 레이블 모드라고 합니다.

주제

일반 텍스트 모델
네이티브 문서 모델

일반 텍스트 모델

일반 텍스트 모델을 학습시키기 위해 레이블이 있는 학습 데이터를 CSV 파일 또는 Ground Truth의 증강 매니페스트 파일로 제공할 수 있습니다. SageMaker

CSV 파일

CSV 파일을 사용하여 분류기를 학습시키는 방법에 대한 일반적인 정보는 CSV 파일를 참조하세요.

학습 데이터를 2열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있습니다. 두 번째 열에는 해당 클래스의 예제 텍스트 문서가 들어 있습니다. 각 행은\n 또는\r\n 문자로 끝나야 합니다.

다음 예제는 세 개의 문서가 있는 CSV 파일을 보여줍니다.


CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3

다음 예제는 이메일 메시지가 스팸인지 여부를 감지하도록 사용자 지정 분류기를 학습시키는 CSV 파일의 한 행을 보여줍니다.


SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."

증강 매니페스트 파일

분류기 학습을 위한 증강 매니페스트 파일 사용에 대한 일반적인 내용은 증강 매니페스트 파일를 참조하세요.

일반 텍스트 문서의 경우 증강 매니페스트 파일의 각 라인은 학습 문서, 단일 클래스 이름 및 Ground Truth의 기타 메타데이터를 포함하는 완전한 JSON 객체입니다. 다음 예제는 스팸 이메일 메시지를 인식하도록 사용자 지정 분류기를 학습하기 위한 증강 매니페스트 파일입니다.


{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}

다음 예제는 증강 매니페스트 파일의 JSON 객체 하나를 가독성에 맞게 포맷한 것을 보여줍니다.


{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}

이 예제에서 source 속성은 학습 문서의 텍스트를 제공하고 MultiClassJob 속성은 분류 목록에 있는 하나의 클래스에 대한 색인을 할당합니다. job-name 속성은 Ground Truth에서 레이블 지정 작업에 대해 정의한 이름입니다.

Amazon Comprehend에서 분류기 학습 작업을 시작할 때 동일한 레이블 지정 작업 이름을 지정합니다.

네이티브 문서 모델

네이티브 문서 모델은 네이티브 문서(예: PDF, DOCX, 이미지)를 사용하여 학습시키는 모델입니다. 학습 데이터를 CSV 파일로 제공합니다.

CSV 파일

CSV 파일을 사용하여 분류기를 학습시키는 방법에 대한 일반적인 정보는 CSV 파일를 참조하세요.

학습 데이터를 3열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있습니다. 두 번째 열에는 이 클래스의 예제 문서의 파일 이름이 들어 있습니다. 세 번째 열에는 페이지 번호가 들어 있습니다. 예제 문서가 이미지인 경우 페이지 번호는 선택 사항입니다.

다음 예제는 세 개의 입력 문서를 참조하는 CSV 파일을 보여줍니다.


CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png

다음 예제는 이메일 메시지가 스팸인지 여부를 감지하도록 사용자 지정 분류기를 학습시키는 CSV 파일의 한 행을 보여줍니다. PDF 파일의 2페이지에 스팸의 예가 나와 있습니다.


SPAM,email-content-3.pdf,2

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

학습 파일 형식

멀티레이블 모드