Configuración de las opciones de extracción de texto

De forma predeterminada, Amazon Comprehend realiza las siguientes acciones para extraer texto de un archivo, en función del tipo de archivo de entrada:

Archivos de Word: el analizador de Amazon Comprehend extrae el texto.
Archivos de PDF digital: el analizador de Amazon Comprehend extrae el texto.
Archivos de imagen y archivos PDF escaneados: Amazon Comprehend utiliza la API DetectDocumentText de Amazon Textract para extraer el texto.

En el caso de los archivos de imagen y los archivos PDF, puede utilizar el parámetro DocumentReaderConfig para anular estas acciones de extracción predeterminadas. Este parámetro está disponible cuando utiliza la consola o la API de Amazon Comprehend para realizar análisis personalizados asíncronos o en tiempo real.

El parámetro DocumentReaderConfig contiene tres campos:

DocumentReadMode— Configúrelo SERVICE_DEFAULT para que Amazon Comprehend realice las acciones predeterminadas.

Se configura en FORCE_DOCUMENT_READ_ACTION para usar Amazon Textract para analizar archivos PDF digitales.
DocumentReadAction— Establece la API (DetectDocumentText o AnalyzeDocument) de Amazon Textract para utilizarla cuando Amazon Comprehend utilice Amazon Textract para la extracción de texto.
FeatureTypes— Si va DocumentReadActiona utilizar la operación de AnalyzeDocument API, puede añadir una o ambas FeatureTypes (TABLAS, FORMULARIOS). Estas funciones proporcionan información adicional sobre las tablas y los formularios del documento. Para obtener más información sobre estas características, consulte Objetos de respuesta de análisis de documentos de Amazon Textract.

Los siguientes ejemplos muestran cómo configurar DocumentReaderConfig para casos de uso específicos.

Use Amazon Textract para todos los archivos PDF.
1. DocumentReadMode: se establece en FORCE_DOCUMENT_READ_ACTION.
2. DocumentReadAction: se establece en TEXTRACT_DETECT_DOCUMENT_TEXT.
3. FeatureTypes— No es obligatorio.
Use la API AnalyzeDocument de Amazon Textract para todos los archivos de imagen y de PDF.
1. DocumentReadMode: se establece en FORCE_DOCUMENT_READ_ACTION.
2. DocumentReadAction: se establece en TEXTRACT_ANALYZE_DOCUMENT.
3. FeatureTypes— Configurado en TABLES FORMS o en ambas funciones.
Utilice la API AnalyzeDocument de Amazon Textract para los archivos PDF escaneados y todos los archivos de imagen.
1. DocumentReadMode: se establece en SERVICE_DEFAULT.
2. DocumentReadAction: se establece en TEXTRACT_ANALYZE_DOCUMENT.
3. FeatureTypes— Configurado en TABLES FORMS o en ambas funciones.

Para obtener más información sobre las opciones de Amazon Textract, consulte. DocumentReaderConfig

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Entradas para análisis asíncronos

Prácticas recomendadas para imágenes