주제 모델링 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

주제 모델링

Amazon Comprehend를 사용하여 문서 컬렉션의 내용을 검토하여 공통 주제를 결정할 수 있습니다. 예를 들어, Amazon Comprehend에 뉴스 기사 모음을 제공하면, 이는 스포츠, 정치 또는 엔터테인먼트와 같은 주제를 결정합니다. 문서의 텍스트에는 주석을 달 필요가 없습니다.

Amazon Comprehend는 잠재 디리클레 할당 기반 학습 모델을 사용하여 문서 집합의 주제를 결정합니다. 각 문서를 검토하여 단어의 문맥과 의미를 파악합니다. 전체 문서 집합에서 같은 문맥에 자주 속하는 단어 집합이 주제를 구성합니다.

단어는 문서에서 해당 주제가 얼마나 널리 사용되는지, 그리고 주제가 해당 단어와 얼마나 유사한지에 따라 문서의 주제와 연관됩니다. 특정 문서의 주제 분포에 따라 동일한 단어가 여러 문서의 다른 주제에 연결될 수 있습니다.

예를 들어, “포도당”이라는 단어는 주로 스포츠에 대해 다루는 기사에서는 “스포츠”라는 주제에 할당할 수 있고, 동일한 단어를 “의학”에 대한 기사에서는 “의학”이라는 주제에 할당할 수 있습니다.

주제와 관련된 각 단어에는 해당 단어가 주제를 정의하는 데 얼마나 도움이 되는지를 나타내는 가중치가 부여됩니다. 가중치는 전체 문서 세트에서 해당 단어가 주제의 다른 단어와 비교하여 해당 주제에서 나타나는 횟수를 나타냅니다.

가장 정확한 결과를 얻으려면 Amazon Comprehend에 사용할 수 있는 가장 큰 코퍼스를 제공해야 합니다. 최상의 결과를 얻으려면,

  • 각 주제 모델링 작업에는 최소 1,000개의 문서를 사용해야 합니다.

  • 각 문서는 3문장 이상이어야 합니다.

  • 문서가 대부분 숫자 데이터로 구성된 경우 코퍼스에서 제거해야 합니다.

주제 모델링은 비동기식 프로세스입니다. 작업을 사용하여 Amazon S3 버킷에서 Amazon Comprehend에 문서 목록을 제출합니다. StartTopicsDetectionJob Amazon S3 버킷으로 응답이 전송됩니다. 입력 버킷과 출력 버킷을 모두 구성할 수 있습니다. 작업을 사용하여 제출한 주제 모델링 작업의 목록을 가져오고 ListTopicsDetectionJobs작업을 사용하는 작업에 대한 정보를 확인하십시오. DescribeTopicsDetectionJob Amazon S3 버킷에 전달한 콘텐츠에는 고객 콘텐츠가 포함될 수 있습니다. 중요 데이터 제거에 관한 자세한 내용은 S3 버킷을 비우려면 어떻게 해야 합니까? 또는 S3 버킷을 삭제하려면 어떻게 해야 합니까?를 참조하십시오.

문서는 UTF-8 형식 텍스트 파일이어야 합니다. 문서를 두 가지 방식으로 제출할 수 있습니다. 다음 표에 옵션이 나와 있습니다.

형식 설명
파일당 문서 하나 각 파일에는 입력 문서가 한 개씩 들어 있습니다. 이 방법은 대용량 문서 컬렉션에 가장 적합합니다.
한 줄에 문서 한 개

단일 파일을 입력합니다. 파일의 각 줄은 문서로 간주됩니다. 소셜 미디어 게시물과 같은 짧은 문서에 가장 적합합니다.

각 줄은 줄 바꿈(LF, \n), 캐리지 리턴(CR, \r) 또는 둘 다(CRLF, \r\n)로 끝나야 합니다. 유니코드 줄 구분자(u+2028)는 줄을 끝내는 데 사용할 수 없습니다.

자세한 정보는 InputDataConfig 데이터 유형을 잠조하세요.

Amazon Comprehend는 문서 집합을 처리한 후, 두 개의 파일 topic-terms.csvdoc-topics.csv을 포함하는 압축된 아카이브를 반환합니다. 출력 파일에 대한 자세한 내용은 을 참조하십시오 OutputDataConfig.

첫 번째 출력 파일(topic-terms.csv)은 컬렉션의 주제 목록입니다. 각 주제에 대해 목록에는 기본적으로 주제별 상위 용어가 가중치에 따라 포함됩니다. 예를 들어, Amazon Comprehend에 신문 기사 컬렉션을 제공하면 컬렉션의 처음 두 주제를 설명하기 위해 다음을 반환할 수 있습니다.

주제 용어 가중치
000 0.118533
000 경기 0.106072
000 플레이어 0.031625
000 시즌 0.023633
000 플레이 0.021118
000 야드 0.024454
000 코치 0.016012
000 경기 0.016191
000 풋볼 0.015049
000 쿼터백 0.014239
001 0.205236
001 음식 0.040686
001 0.036062
001 추가 0.029697
001 테이블스푼 0.028789
001 기름 0.021254
001 후추 0.022205
001 티스푼 0.020040
001 와인 0.016588
001 설탕 0.015101

가중치는 특정 주제의 단어에 대한 확률 분포를 나타냅니다. Amazon Comprehend는 각 주제에 대해 상위 10개 단어만 반환하므로 가중치 합계는 1.0이 되지 않습니다. 한 주제에 포함된 단어가 10개 미만인 경우, 드물긴 하지만 가중치 합계는 1.0이 됩니다.

모든 주제에서의 발생 빈도를 살펴봄으로써 구별력에 따라 단어를 정렬합니다. 일반적으로 이 값은 가중치와 동일하지만 표의 “play” 및 “yard”라는 단어와 같이 일부 경우에는 가중치와 다른 순서로 표시됩니다.

반환할 주제 수를 지정할 수 있습니다. 예를 들어, Amazon Comprehend에 25개의 주제를 반환하도록 요청하면 컬렉션에서 가장 중요한 25개의 주제를 반환합니다. Amazon Comprehend는 컬렉션에서 최대 100개의 주제를 감지할 수 있습니다. 도메인에 대한 지식을 바탕으로 주제 수를 선택합니다. 정확한 수치를 찾으려면 몇 번의 실험이 필요할 수 있습니다.

두 번째 doc-topics.csv 파일에는 주제와 관련된 문서 및 해당 주제와 관련된 문서 비율이 나열되어 있습니다. ONE_DOC_PER_FILE를 지정한 경우 문서는 파일 이름으로 식별됩니다. ONE_DOC_PER_LINE를 지정한 경우 문서는 파일 이름과 파일 내에서 인덱스가 0인 줄 번호로 식별됩니다. 예를 들어, Amazon Comprehend는 파일당 문서 1개를 포함하여 제출한 문서 컬렉션에 대해 다음을 반환할 수 있습니다.

문서 주제 비율
sample-doc1 000 0.999330137
sample-doc2 000 0.998532187
sample-doc3 000 0.998384574
...    
sample-docN 000 3.57E-04

Amazon Comprehend는 Open database license (ODbL) v1.0에 따라 여기에서 제공되는 Lemmatization Lists Dataset by MBM의 정보를 활용합니다.