주제 모델링

Amazon Comprehend를 사용하여 문서 컬렉션의 내용을 검토하여 공통 주제를 결정할 수 있습니다. 예를 들어, Amazon Comprehend에 뉴스 기사 모음을 제공하면, 이는 스포츠, 정치 또는 엔터테인먼트와 같은 주제를 결정합니다. 문서의 텍스트에는 주석을 달 필요가 없습니다.

Amazon Comprehend는 잠재 디리클레 할당 기반 학습 모델을 사용하여 문서 집합의 주제를 결정합니다. 각 문서를 검토하여 단어의 문맥과 의미를 파악합니다. 전체 문서 집합에서 같은 문맥에 자주 속하는 단어 집합이 주제를 구성합니다.

단어는 문서에서 해당 주제가 얼마나 널리 사용되는지, 그리고 주제가 해당 단어와 얼마나 유사한지에 따라 문서의 주제와 연관됩니다. 특정 문서의 주제 분포에 따라 동일한 단어가 여러 문서의 다른 주제에 연결될 수 있습니다.

예를 들어, “포도당”이라는 단어는 주로 스포츠에 대해 다루는 기사에서는 “스포츠”라는 주제에 할당할 수 있고, 동일한 단어를 “의학”에 대한 기사에서는 “의학”이라는 주제에 할당할 수 있습니다.

주제와 관련된 각 단어에는 해당 단어가 주제를 정의하는 데 얼마나 도움이 되는지를 나타내는 가중치가 부여됩니다. 가중치는 전체 문서 세트에서 해당 단어가 주제의 다른 단어와 비교하여 해당 주제에서 나타나는 횟수를 나타냅니다.

가장 정확한 결과를 얻으려면 Amazon Comprehend에 사용할 수 있는 가장 큰 코퍼스를 제공해야 합니다. 최상의 결과를 얻으려면,

각 주제 모델링 작업에는 최소 1,000개의 문서를 사용해야 합니다.
각 문서는 3문장 이상이어야 합니다.
문서가 대부분 숫자 데이터로 구성된 경우 코퍼스에서 제거해야 합니다.

주제 모델링은 비동기식 프로세스입니다. StartTopicsDetectionJob 작업을 사용하여 Amazon S3 버킷에서 Amazon Comprehend에 문서 목록을 제출합니다. Amazon S3 버킷으로 응답이 전송됩니다. 입력 버킷과 출력 버킷을 모두 구성할 수 있습니다. ListTopicsDetectionJobs 작업을 사용하여 제출한 주제 모델링 작업의 목록을 가져오고 DescribeTopicsDetectionJob 작업을 사용하여 작업에 대한 정보를 봅니다. Amazon S3 버킷에 전달한 콘텐츠에는 고객 콘텐츠가 포함될 수 있습니다. 중요 데이터 제거에 관한 자세한 내용은 S3 버킷을 비우려면 어떻게 해야 합니까? 또는 S3 버킷을 삭제하려면 어떻게 해야 합니까?를 참조하세요.

문서는 UTF-8 형식 텍스트 파일이어야 합니다. 문서를 두 가지 방식으로 제출할 수 있습니다. 다음 표에 옵션이 나와 있습니다.

형식	설명
파일당 문서 하나	각 파일에는 입력 문서가 한 개씩 들어 있습니다. 이 방법은 대용량 문서 모음에 가장 적합합니다.
라인당 문서 하나	단일 파일을 입력합니다. 파일의 각 줄은 문서로 간주됩니다. 소셜 미디어 게시물과 같은 짧은 문서에 가장 적합합니다. 각 라인은 줄 바꿈 (LF, \n), 캐리지 리턴 (CR,\ r) 또는 둘 다 (CRLF,\ r\ n) 로 끝나야 합니다. 유니코드 줄 구분자(u+2028)는 줄을 끝내는 데 사용할 수 없습니다.

형식

설명

파일당 문서 하나

각 파일에는 입력 문서가 한 개씩 들어 있습니다. 이 방법은 대용량 문서 모음에 가장 적합합니다.

라인당 문서 하나

단일 파일을 입력합니다. 파일의 각 줄은 문서로 간주됩니다. 소셜 미디어 게시물과 같은 짧은 문서에 가장 적합합니다.

각 라인은 줄 바꿈 (LF, \n), 캐리지 리턴 (CR,\ r) 또는 둘 다 (CRLF,\ r\ n) 로 끝나야 합니다. 유니코드 줄 구분자(u+2028)는 줄을 끝내는 데 사용할 수 없습니다.

자세한 정보는 InputDataConfig 데이터 유형을 참조하세요.

Amazon Comprehend는 문서 집합을 처리한 후, 두 개의 파일 topic-terms.csv 및 doc-topics.csv을 포함하는 압축된 아카이브를 반환합니다. 출력 파일에 대한 자세한 내용은 OutputDataConfig를 참조하세요.

첫 번째 출력 파일(topic-terms.csv)은 컬렉션의 주제 목록입니다. 각 주제에 대해 목록에는 기본적으로 주제별 상위 용어가 가중치에 따라 포함됩니다. 예를 들어, Amazon Comprehend에 신문 기사 컬렉션을 제공하면 컬렉션의 처음 두 주제를 설명하기 위해 다음을 반환할 수 있습니다.

주제	Term	가중치
000	팀	0.118533
000	게임	0.106072
000	플레이어	0.031625
000	시즌	0.023633
000	플레이	0.021118
000	야드	0.024454
000	코치	0.016012
000	게임	0.016191
000	풋볼	0.015049
000	쿼터백	0.014239
001	컵	0.205236
001	음식	0.040686
001	분	0.036062
001	추가	0.029697
001	테이블스푼	0.028789
001	기름	0.021254
001	후추	0.022205
001	티스푼	0.020040
001	와인	0.016588
001	설탕	0.015101

가중치는 특정 주제의 단어에 대한 확률 분포를 나타냅니다. Amazon Comprehend는 각 주제에 대해 상위 10개 단어만 반환하므로 가중치 합계는 1.0이 되지 않습니다. 한 주제에 포함된 단어가 10개 미만인 경우, 드물긴 하지만 가중치 합계는 1.0이 됩니다.

모든 주제에서의 발생 빈도를 살펴봄으로써 구별력에 따라 단어를 정렬합니다. 일반적으로 이 값은 가중치와 동일하지만 표의 “play” 및 “yard”라는 단어와 같이 일부 경우에는 가중치와 다른 순서로 표시됩니다.

반환할 주제 수를 지정할 수 있습니다. 예를 들어, Amazon Comprehend에 25개의 주제를 반환하도록 요청하면 컬렉션에서 가장 중요한 25개의 주제를 반환합니다. Amazon Comprehend는 컬렉션에서 최대 100개의 주제를 감지할 수 있습니다. 도메인에 대한 지식을 바탕으로 주제 수를 선택합니다. 정확한 수치를 찾으려면 몇 번의 실험이 필요할 수 있습니다.

두 번째 doc-topics.csv 파일에는 주제와 관련된 문서 및 해당 주제와 관련된 문서 비율이 나열되어 있습니다. ONE_DOC_PER_FILE를 지정한 경우 문서는 파일 이름으로 식별됩니다. ONE_DOC_PER_LINE를 지정한 경우 문서는 파일 이름과 파일 내에서 인덱스가 0인 줄 번호로 식별됩니다. 예를 들어, Amazon Comprehend는 파일당 문서 1개를 포함하여 제출한 문서 컬렉션에 대해 다음을 반환할 수 있습니다.

문서	주제	비율
sample-doc1	000	0.999330137
sample-doc2	000	0.998532187
sample-doc3	000	0.998384574
...
sample-docN	000	3.57E-04

Amazon Comprehend는 Open database license (ODbL) v1.0에 따라 여기에서 제공되는 Lemmatization Lists Dataset by MBM의 정보를 활용합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon Comprehend 사용자 정의

문서 처리 모드