PDF 주석 파일 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

PDF 주석 파일

PDF 주석의 경우 SageMaker Ground Truth를 사용하여 증강 매니페스트 파일에 레이블이 있는 데이터세트를 만들 수 있습니다. Ground Truth는 사용자(또는 고용한 작업 인력)가 기계 학습 모델에 사용할 학습 데이터 세트 구축에 도움이 되는 데이터 레이블 지정 서비스입니다. Amazon Comprehend는 증강 매니페스트 파일을 사용자 정의 모델의 학습 데이터로 받아들입니다. Amazon Comprehend 콘솔 CreateEntityRecognizer또는 API 작업을 사용하여 사용자 지정 개체 인식기를 생성할 때 이러한 파일을 제공할 수 있습니다.

Ground Truth의 기본 제공 작업 유형인 명명된 개체 인식을 사용하여 작업자가 텍스트에서 개체를 식별하도록 하는 레이블 작업을 생성할 수 있습니다. 자세한 내용은 Amazon SageMaker 개발자 안내서의 명명된 개체 인식을 참조하십시오. Amazon SageMaker Ground Truth에 대해 자세히 알아보려면 Amazon SageMaker Ground Truth를 사용한 데이터 레이블 지정을 참조하십시오.

참고

Ground Truth를 사용하여 중첩된 레이블(둘 이상의 레이블과 연결하는 텍스트)을 정의할 수 있습니다. 하지만 Amazon Comprehend 개체 인식은 중첩 레이블을 지원하지 않습니다.

증강 매니페스트 파일은 JSON 라인 형식입니다. 이 파일에서 각 라인은 학습 문서 및 관련 레이블이 포함된 완전한 JSON 객체입니다. 다음 예제는 텍스트에 언급된 개인의 직업을 감지하도록 개체 인식기를 학습시키는 증강 매니페스트 파일입니다.

{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}} {"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}} {"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}

이 JSON 라인 파일의 각 라인은 완전한 JSON 객체이며, 속성에는 Ground Truth의 문서 텍스트, 주석 및 기타 메타데이터가 포함되어 있습니다. 다음 예제는 증강 매니페스트 파일에 있는 단일 JSON 객체이지만 가독성을 위해 형식을 변경하였습니다.

{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" } }

이 예제에서 source 속성은 학습 문서의 텍스트를 제공하고 NamedEntityRecognitionDemo 속성은 텍스트의 개체에 대한 주석을 제공합니다. NamedEntityRecognitionDemo 속성의 이름은 임의적이며 Ground Truth에서 레이블 지정 작업을 정의할 때 사용자가 선택한 이름을 제공합니다.

이 예제에서 NamedEntityRecognitionDemo 속성은 레이블 속성 이름으로 Ground Truth 작업자가 학습 데이터에 할당하는 레이블을 제공하는 속성입니다. Amazon Comprehend에 학습 데이터를 제공할 때는 하나 이상의 레이블 속성 이름을 지정해야 합니다. 지정하는 속성 이름의 수는 증강 매니페스트 파일이 단일 레이블 작업의 출력인지 아니면 연속 레이블 작업 출력인지에 따라 달라집니다.

파일이 단일 레이블 작업 출력인 경우 Ground Truth에서 작업을 생성할 때 사용한 단일 레이블 속성 이름을 지정하십시오.

파일이 체인 레이블 지정 작업의 출력인 경우 체인에 있는 하나 이상의 작업에 대한 레이블 속성 이름을 지정하십시오. 각 레이블 속성 이름은 개별 작업의 주석을 제공합니다. 연속 레이블 작업으로 생성되는 증강 매니페스트 파일에는 이러한 속성을 최대 5개까지 지정할 수 있습니다.

증강 매니페스트 파일에서는 일반적으로 레이블 속성 이름이 키 뒤에 옵니다. source 파일이 연속 작업 출력인 경우 레이블 속성 이름은 여러 개가 있습니다. Amazon Comprehend에 학습 데이터를 제공할 때는 모델과 관련된 주석이 포함된 속성만 제공하십시오. “-metadata”로 끝나는 속성은 지정하지 마십시오.

체인 레이블 지정 작업에 대한 자세한 내용과 해당 작업이 생성하는 결과의 예는 Amazon SageMaker 개발자 안내서의 레이블 지정 작업 체인을 참조하십시오.