Configuración de las opciones de extracción de texto - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de las opciones de extracción de texto

De forma predeterminada, Amazon Comprehend realiza las siguientes acciones para extraer texto de un archivo, en función del tipo de archivo de entrada:

  • Archivos de Word: el analizador de Amazon Comprehend extrae el texto.

  • Archivos de PDF digital: el analizador de Amazon Comprehend extrae el texto.

  • Archivos de imagen y archivos PDF escaneados: Amazon Comprehend utiliza la API DetectDocumentText de Amazon Textract para extraer el texto.

En el caso de los archivos de imagen y los archivos PDF, puede utilizar el parámetro DocumentReaderConfig para anular estas acciones de extracción predeterminadas. Este parámetro está disponible cuando utiliza la consola o la API de Amazon Comprehend para realizar análisis personalizados asíncronos o en tiempo real.

El parámetro DocumentReaderConfig contiene tres campos:

  • DocumentReadMode— Configúrelo SERVICE_DEFAULT para que Amazon Comprehend realice las acciones predeterminadas.

    Se configura en FORCE_DOCUMENT_READ_ACTION para usar Amazon Textract para analizar archivos PDF digitales.

  • DocumentReadAction— Establece la API (DetectDocumentText o AnalyzeDocument) de Amazon Textract para utilizarla cuando Amazon Comprehend utilice Amazon Textract para la extracción de texto.

  • FeatureTypes— Si va DocumentReadActiona utilizar la operación de AnalyzeDocument API, puede añadir una o ambas FeatureTypes (TABLAS, FORMULARIOS). Estas funciones proporcionan información adicional sobre las tablas y los formularios del documento. Para obtener más información sobre estas características, consulte Objetos de respuesta de análisis de documentos de Amazon Textract.

Los siguientes ejemplos muestran cómo configurar DocumentReaderConfig para casos de uso específicos.

  1. Use Amazon Textract para todos los archivos PDF.

    1. DocumentReadMode— Establecido enFORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction— Configurado enTEXTRACT_DETECT_DOCUMENT_TEXT.

    3. FeatureTypes— No es obligatorio.

  2. Use la API AnalyzeDocument de Amazon Textract para todos los archivos de imagen y de PDF.

    1. DocumentReadMode— Configurado enFORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction— Configurado enTEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— Configurado en TABLES FORMS o en ambas funciones.

  3. Utilice la API AnalyzeDocument de Amazon Textract para los archivos PDF escaneados y todos los archivos de imagen.

    1. DocumentReadMode— Configurado enSERVICE_DEFAULT.

    2. DocumentReadAction— Configurado enTEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— Configurado en TABLES FORMS o en ambas funciones.

Para obtener más información sobre las opciones de Amazon Textract, consulte. DocumentReaderConfig