문서 분석 - Amazon Textract

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

문서 분석

Amazon Textract Textract는 검색된 텍스트 간의 관계를 위해 문서와 양식을 분석합니다. Amazon Textract 분석 작업은 텍스트, 양식 및 표 등 세 가지 문서 추출 범주를 반환합니다. 송장 및 영수증 분석은 다른 프로세스를 통해 처리됩니다. 자세한 내용은송장 및 수금 분석.

텍스트 추출

문서에서 추출한 원시 텍스트입니다. 자세한 내용은 단원을 참조하십시오.줄 및 텍스트 단어.

양식 추출

양식 데이터는 문서에서 추출한 텍스트 항목에 링크됩니다. Amazon Textract Textract는 양식 데이터를 키-값 페어로 나타냅니다. 다음 예에서 Amazon Textract Textract에서 감지한 텍스트 줄 중 하나는 다음과 같습니다.이름: 제인 Doe. 또한 Amazon Textract Textract는 키를 식별합니다 (이름:) 및 값 (제인 Doe). 자세한 내용은 단원을 참조하십시오.양식 데이터 (키-값 쌍).

이름: 제인 Doe

Address: 123 애니 스트리트, 애니타운, 미국

생년월일: 12-26-1980

키-값 쌍은 양식에서 추출된 확인란 또는 옵션 버튼 (라디오 버튼) 을 나타내는 데에도 사용됩니다.

male:

자세한 내용은 단원을 참조하십시오.선택 요소.

테이블 추출

Amazon Textract Textract는 테이블, 테이블 셀 및 테이블 셀 내의 항목을 추출할 수 있으며 결과를 JSON, .csv 또는.txt 파일로 반환하도록 프로그래밍할 수 있습니다.

이름 Address

아나 캐롤라이나

123 Any Town

자세한 내용은 테이블을 참조하십시오. 테이블에서 선택 요소를 추출할 수도 있습니다. 자세한 내용은 단원을 참조하십시오.선택 요소.

분석된 아이템의 경우 Amazon Textract Textract는 다음을 여러 개로 반환합니다.Block객체:

  • 감지된 텍스트의 줄과 단어

  • 탐지된 항목의 내용

  • 탐지된 항목 간의 관계

  • 항목이 감지된 페이지

  • 문서 페이지에 있는 항목의 위치입니다.

동기식 또는 비동기 작업을 사용하여 문서의 텍스트를 분석할 수 있습니다. 텍스트를 동기적으로 분석하려면AnalyzeDocument작업을 수행하고 문서를 입력으로 전달합니다.AnalyzeDocument은 전체 결과 집합을 반환합니다. 자세한 정보는 Amazon Textract Textract를 사용하여 문서 텍스트 분석을 참조하십시오.

텍스트를 비동기적으로 감지하려면StartDocumentAnalysis처리를 시작합니다. 결과를 가져오려면GetDocumentAnalysis. 결과는 다음 중 하나 이상의 응답으로 반환됩니다.GetDocumentAnalysis. 자세한 내용과 예제는 다중 페이지 문서에서 텍스트 감지 또는 분석 단원을 참조하십시오.

수행할 분석 유형을 지정하려면FeatureTypes목록 입력 매개 변수입니다. 목록에 TABLES를 추가하여 입력 문서에서 검색된 테이블 (예: 표 셀, 셀 텍스트 및 셀의 선택 요소) 에 대한 정보를 반환합니다. FORMS를 추가하여 키-값 쌍 및 선택 요소와 같은 단어 관계를 반환합니다. 두 가지 유형의 분석을 모두 수행하려면 TABLES와 FORMS를 다음에 추가합니다.FeatureTypes.

문서에서 감지된 모든 줄과 단어가 응답에 포함됩니다 (값과 관련이 없는 텍스트 포함)FeatureTypes).