텍스트 추출 옵션 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

텍스트 추출 옵션

기본적으로 Amazon Comprehend는 입력 파일 유형에 따라 다음 작업을 수행하여 파일에서 텍스트를 추출합니다.

  • Word 파일 — Amazon Comprehend 파서가 텍스트를 추출합니다.

  • 디지털 PDF 파일 — Amazon Comprehend 파서가 텍스트를 추출합니다.

  • 이미지 파일 및 스캔한 PDF 파일 — Amazon Comprehend는 Amazon Textract DetectDocumentText API를 사용하여 텍스트를 추출합니다.

이미지 파일 및 PDF 파일의 경우 DocumentReaderConfig 파라미터를 사용하여 이러한 기본 추출 작업을 재정의할 수 있습니다. 이 파라미터는 실시간 또는 비동기 사용자 지정 분석을 위해 Amazon Comprehend 콘솔 또는 API를 사용할 때 사용할 수 있습니다.

DocumentReaderConfig 파라미터에는 다음과 같은 세 개의 필드가 있습니다.

  • DocumentReadMode— Amazon Comprehend에서 기본 작업을 수행하도록 하려면 로 설정합니다. SERVICE_DEFAULT

    FORCE_DOCUMENT_READ_ACTION으로 설정하여 Amazon Textract를 사용하여 디지털 PDF 파일을 파싱합니다.

  • DocumentReadAction— Amazon Comprehend가 텍스트 추출에 Amazon Textract를 사용할 때 사용할 Amazon Textract API (DetectDocumentText 또는 AnalyzeDocument) 를 설정합니다.

  • FeatureTypes— AnalyzeDocument API 작업을 DocumentReadAction사용하도록 설정한 경우 FeatureTypes (표, 양식) 중 하나 또는 둘 다를 추가할 수 있습니다. 이러한 기능은 문서의 표 및 양식에 대한 추가 정보를 제공합니다. 이러한 기능에 대한 자세한 내용은 Amazon Textract 문서 분석 응답 객체를 참조하십시오.

다음 예제에서는 특정 사용 사례를 위한 DocumentReaderConfig 구성 방법을 보여줍니다.

  1. 모든 PDF 파일에 대해 Amazon Textract를 사용합니다.

    1. DocumentReadMode— 로 설정합니다FORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction— 로 설정합니다TEXTRACT_DETECT_DOCUMENT_TEXT.

    3. FeatureTypes— 필수는 아닙니다.

  2. 모든 PDF 및 이미지 파일에 대해 Amazon Textract AnalyzeDocument API를 사용합니다.

    1. DocumentReadMode— 로 설정합니다FORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction— 로 설정합니다TEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— 기능으로 TABLES FORMS 설정하거나 두 기능을 모두 설정합니다.

  3. 스캔된 PDF 및 이미지 파일에 대해 Amazon Textract AnalyzeDocument API를 사용합니다.

    1. DocumentReadMode— 로 설정합니다SERVICE_DEFAULT.

    2. DocumentReadAction— 로 설정합니다TEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— 기능으로 TABLES FORMS 설정하거나 두 기능을 모두 설정합니다.

Amazon Textract 옵션에 대한 자세한 내용은 을 참조하십시오. DocumentReaderConfig