Fase de procesamiento - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Fase de procesamiento

Amazon Textract extrae el contenido de los archivos PDF como cadenas que las aplicaciones posteriores no pueden utilizar directamente (por ejemplo, para generar estadísticas mediante la agregación de números). Se requieren valores de datos correctamente identificados y transformados porque las aplicaciones posteriores pueden utilizarlos más fácilmente (por ejemplo, para trazar las tendencias de los costos como series temporales). Para implementar el procesamiento de archivos PDF, se debe procesar un archivo PDF de cada nuevo tipo de archivo PDF una vez a través de Amazon Textract, que luego genera unTemplate archivo con formato JSON.

Una vez iniciada laAWS Lambda función en elFase de ingestión, ejecuta los pasos que se muestran en el siguiente diagrama.

LaAWS Lambda función llama a Amazon Textract para procesar el archivo PDF, utiliza el archivoTemplate JSON predefinido y aplica reglas de posprocesamiento antes de almacenar la salida final en un bucket de S3.

El diagrama muestra la función Lambda implementando los siguientes pasos:

  1. Llama a Amazon Textract para procesar el archivo PDF, extraer el contenido y devolver un archivo con formato JSON.

  2. Toma el archivo JSON y analiza formularios y tablas mediante un archivoTemplate JSON predefinido que tiene el nombre de clave y el tipo de valor correctos para cada campo. Este proceso proporciona un archivo JSON analizado.

  3. Aplica las reglas de posprocesamiento y usa el archivoTemplate JSON para corregir cada valor del archivo JSON analizado. Esto produce el archivoFinal JSON. El archivoTemplate JSON predefinido puede almacenarse en el bucket de S3.

  4. Almacena el archivoFinal JSON en Amazon DynamoDB como un registro para cada archivo PDF, además de un archivo JSON para cada archivo PDF en un bucket de salida S3.

Para un step-by-step flujo de trabajo que utilice Amazon Textract para extraer automáticamente el contenido de los archivos PDF y procesarlo hasta obtener una salida limpia, consulte el patrón Extraer contenido automáticamente de archivos PDF con Amazon Textract en el sitio webAWS Prescriptive Guideance. El patrón utiliza una técnica de coincidencia de plantillas para identificar correctamente el campo, el nombre clave y las tablas requeridos y, a continuación, aplica las correcciones posteriores al procesamiento a cada tipo de datos.

Prácticas recomendadas recomendadas para la fase de procesamiento de procesamiento

Utilice las cuatro mejores prácticas siguientes para garantizar una fase de procesamiento exitosa:

  • Cree un archivo JSON de plantilla para cada tipo de archivo PDF que desee procesar. Puede almacenar estos diferentes archivos JSON de plantilla en un bucket S3 al que llama la función Lambda. Si desea procesar diferentes tipos de archivos PDF en una función Lambda, debe utilizar un identificador único para cada tipo de archivo PDF (por ejemplo, el nombre de la carpeta del tipo de archivo PDF en el bucket S3). Tras invocar la función Lambda, recupera el archivo JSON de plantilla correspondiente y lo procesa.

  • Configure un mecanismo para realizar un seguimiento preciso del estado de cada paso en la función Lambda. Por ejemplo, puede añadirSuccess estados para después de la llamada a Amazon Textract, cuando el archivo JSON final se guarde en una tabla de Amazon DynamoDB o cuando los archivos PDF se guarden en un bucket de S3. También puede crear una tabla de DynamoDB independiente para realizar un seguimiento del estado de cada archivo PDF en los diferentes pasos, lo que proporciona visibilidad del proceso.

  • Gestione la limitación y la interrupción de las conexiones reintentando automáticamente las operaciones fallidas al procesar por lotes muchos archivos PDF. Puede producirse una limitación en Amazon Textract si la conexión se interrumpe o si superas el número máximo de transacciones por segundo (TPS). Para obtener más información y los pasos para reintentar automáticamente las operaciones fallidas, consulte Gestión de llamadas restringidas y conexiones interrumpidas en la documentación de Amazon Textract.

  • Si tiene archivos PDF con varias páginas, puede utilizar una operación asincrónica para procesar todo el archivo o dividir el archivo PDF en una página individual, utilizar una operación sincrónica para procesar cada página y, a continuación, combinar los resultados de cada página. Para una implementación de código completa de una operación asincrónica, consulte Detectar y analizar texto en documentos de varias páginas en la documentación de Amazon Textract. Para obtener más información sobre el uso de una operación sincrónica, consulte Detectar y analizar texto en documentos de una sola página en la documentación de Amazon Textract.