개체 목록(일반 텍스트만 해당) - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

개체 목록(일반 텍스트만 해당)

개체 목록을 사용하여 모델을 학습하기 위해 두 가지 정보를 제공합니다. 하나는 해당 사용자 지정 개체 유형이 포함된 개체 이름 목록이고 다른 하나는 개체가 표시될 것으로 예상되는 주석이 없는 문서 모음입니다.

개체 목록을 제공하면 Amazon Comprehend는 지능형 알고리즘을 사용하여 문서 내 개체 발생을 감지하여 사용자 지정 개체 인식기 모델을 교육하기 위한 기초로 사용합니다.

개체 목록의 경우 개체 목록에서 개체 유형당 최소 25개의 개체 일치 항목을 제공하십시오.

사용자 지정 개체 인식을 위한 개체 목록에는 다음 열이 있는 쉼표 구분 값(CSV) 파일이 필요합니다.

  • 텍스트 — 항목 예제의 텍스트는 함께 제공되는 문서 코퍼스에 표시된 것과 동일합니다.

  • 유형 —고객이 정의한 개체 유형입니다. 개체 유형은 대문자와 밑줄로 구분된 문자열이어야 합니다(예: MANAGER 또는 SENIOR_MANAGER). 모델당 최대 25개의 개체 유형을 학습시킬 수 있습니다.

documents.txt 파일은 네 줄로 구성되어 있습니다.

Jo Brown is an engineer in the high tech industry. John Doe has been a engineer for 14 years. Emilio Johnson is a judge on the Washington Supreme Court. Our latest new employee, Jane Smith, has been a manager in the industry for 4 years.

개체 목록이 있는 CSV 파일에는 다음과 같은 줄이 있습니다.

Text, Type Jo Brown, ENGINEER John Doe, ENGINEER Jane Smith, MANAGER
참고

개체 목록에서 Emilio Johnson의 항목은 ENGINEER 또는 MANAGER 개체를 포함하지 않기 때문에 존재하지 않습니다.

데이터 파일 생성

개체 목록 파일에 문제가 발생할 가능성을 최소화하려면 개체 목록을 적절하게 구성된 CSV 파일에 포함해야 합니다. CSV 파일을 수동으로 구성하려면 다음 조건이 충족되어야 합니다.

  • UTF-8 인코딩은 대부분의 경우 기본값으로 사용되더라도 명시적으로 지정해야 합니다.

  • 열 이름: TypeText를 포함해야 합니다.

잠재적 문제를 방지하려면 프로그래밍 방식으로 CSV 입력 파일을 생성하는 것이 좋습니다.

다음 예제는 Python을 사용하여 위에 표시된 주석에 대한 CSV를 생성합니다.

import csv with open("./entitylist/entitylist.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["Text", "Type"]) csv_writer.writerow(["Jo Brown", " ENGINEER"]) csv_writer.writerow(["John Doe", " ENGINEER"]) csv_writer.writerow(["Jane Smith", " MANAGER"])

모범 사례

개체 목록을 사용할 때 최상의 결과를 얻으려면 다음을 포함하여 여러 가지 사항을 고려해야 합니다.

  • 목록에 있는 항목의 순서는 모델 학습에 영향을 주지 않습니다.

  • 주석이 없는 문서 코퍼스에 언급된 긍정적인 개체 예제의 80~ 100%를 포함하는 개체 목록 항목을 사용하십시오.

  • 일반적인 단어와 구문을 제거하여 문서 코퍼스의 비개체와 일치하는 개체 예제를 사용하지 마십시오. 일치하지 않는 부분이 조금이라도 있어도 결과 모델의 정확성에 큰 영향을 미칠 수 있습니다. 예를 들어, 개체 목록에 있는 것과 같은 단어를 사용하면 찾고 있는 개체와 일치하지 않을 가능성이 높아 정확도에 큰 영향을 미칠 수 있습니다.

  • 입력 데이터에 중복이 포함되어서는 안 됩니다. 샘플이 중복되면 테스트 세트가 오염되어 학습 프로세스, 모델 지표 및 행동에 부정적인 영향을 미칠 수 있습니다.

  • 실제 사용 사례와 최대한 유사한 문서를 제공하십시오. 토이 데이터나 합성 데이터를 프로덕션 시스템에 사용하지 마십시오. 입력 데이터는 과적합을 방지하고 기본 모델이 실제 예제를 보다 잘 일반화할 수 있도록 최대한 다양해야 합니다.

  • 개체 목록은 대소문자를 구분하며 정규 표현식은 현재 지원되지 않습니다. 그러나 학습된 모델은 개체 목록에 제공된 대/소문자와 정확히 일치하지 않더라도 개체를 인식할 수 있는 경우가 많습니다.

  • 다른 개체의 하위 문자열(예: “Smith” 및 “Jane Smith”)인 개체가 있는 경우 개체 목록에 둘 다 입력하십시오.

추가 제안 사항은 사용자 지정 개체 인식기 성능 개선에서 확인할 수 있습니다.