텍스트 추출 옵션을 설정하는

기본적으로 Amazon Comprehend는 입력 파일 유형에 따라 다음 작업을 수행하여 파일에서 텍스트를 추출합니다.

Word 파일 - Amazon Comprehend 파서가 텍스트를 추출합니다.
디지털 PDF 파일 — Amazon Comprehend 파서가 텍스트를 추출합니다.
이미지 파일 및 스캔한 PDF 파일 - Amazon Comprehend는 Amazon Textract DetectDocumentText API를 사용하여 텍스트를 추출합니다.

이미지 파일 및 PDF 파일의 경우 DocumentReaderConfig 파라미터를 사용하여 이러한 기본 추출 작업을 재정의할 수 있습니다. 이 파라미터는 실시간 또는 비동기 사용자 지정 분석을 위해 Amazon Comprehend 콘솔 또는 API를 사용할 때 사용할 수 있습니다.

DocumentReaderConfig 파라미터에는 다음과 같은 세 개의 필드가 있습니다.

DocumentReadMode - SERVICE_DEFAULT로 설정하면 Amazon Comprehend가 기본 작업을 수행합니다.

FORCE_DOCUMENT_READ_ACTION으로 설정하면 Amazon Textract를 사용하여 디지털 PDF 파일을 파싱합니다.
DocumentReadAction - Amazon Comprehend가 텍스트 추출에 Amazon Textract를 사용할 때 사용할 Amazon Textract API(DetectDocumentText 또는 AnalyzeDocument)를 설정합니다.
FeatureTypes — AnalyzeDocument API 작업을 사용하도록 DocumentReadAction을 설정하는 경우 FeatureTypes(TABLES, FORMS) 중 하나 또는 둘 다를 추가할 수 있습니다. 이러한 기능은 문서의 표 및 양식에 대한 추가 정보를 제공합니다. 이러한 기능에 대한 자세한 내용은 Amazon Textract 문서 분석 응답 객체를 참조하세요.

다음 예제에서는 특정 사용 사례를 위한 DocumentReaderConfig 구성 방법을 보여줍니다.

모든 PDF 파일에 대해 Amazon Textract를 사용합니다.
1. DocumentReadMode – FORCE_DOCUMENT_READ_ACTION으로 설정합니다.
2. DocumentReadAction – TEXTRACT_DETECT_DOCUMENT_TEXT으로 설정합니다.
3. FeatureTypes — 필수는 아닙니다.
모든 PDF 및 이미지 파일에 대해 Amazon Textract AnalyzeDocument API를 사용합니다.
1. DocumentReadMode – FORCE_DOCUMENT_READ_ACTION으로 설정합니다.
2. DocumentReadAction – TEXTRACT_ANALYZE_DOCUMENT으로 설정합니다.
3. FeatureTypes - TABLES 또는 FORMS로 설정하거나 두 기능을 모두 설정합니다.
스캔된 PDF 및 이미지 파일에 대해 Amazon Textract AnalyzeDocument API를 사용합니다.
1. DocumentReadMode – SERVICE_DEFAULT으로 설정합니다.
2. DocumentReadAction – TEXTRACT_ANALYZE_DOCUMENT으로 설정합니다.
3. FeatureTypes - TABLES 또는 FORMS로 설정하거나 두 기능을 모두 설정합니다.

Amazon Textract 옵션에 대한 자세한 내용은 DocumentReaderConfig를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

비동기 분석을 위한 입력

이미지 모범 사례