Diseño de una solución automatizada para analizar archivos PDF enNube de AWS

Tianxia Jia y Yanyan Zhang, Amazon Web Services (AWS)

Octubre de 2021 (historial del documento)

Las Organizations utilizan regularmente archivos PDF para almacenar y transferir diferentes tipos de datos, incluidos textos, tablas y formularios. Sin embargo, puede resultar difícil agregar y analizar automáticamente datos de diferentes archivos PDF. Por ejemplo, la aplicación empresarial de una organización puede ingerir regularmente diferentes archivos PDF con un formato idéntico, pero que los usuarios deben abrir y leer individualmente. Esto significa que a los usuarios les resulta difícil generar información útil a partir de esos archivos PDF y deben extraer manualmente los datos relevantes y utilizar herramientas de terceros para su posterior análisis.

En la nube de Amazon Web Services (AWS), Amazon Textract extrae automáticamente la información (por ejemplo, texto impreso, formularios y tablas) de los archivos PDF y produce un archivo con formato JSON que contiene información del archivo PDF original. Durante el posprocesamiento, los datos extraídos se almacenan en Amazon DynamoDB y puede generar información empresarial mediante análisis y visualizaciones en Amazon QuickSight.

Esta guía proporciona una solución de análisis de archivos PDF automatizada y sin servidor en cuatro fases:

Fase de ingestión— Prepare un tipo de archivo PDF que su organización genere continuamente (por ejemplo, un informe de operaciones diario) y del que necesite extraer datos con regularidad.
Fase de procesamiento— Extraiga los valores de datos requeridos por sus aplicaciones posteriores de los archivos PDF.
Fase de almacenamiento de datos— Almacene los datos extraídos como un archivo JSON en Amazon Simple Storage Service (Amazon S3) y como un registro en una tabla de DynamoDB.
Fase de análisis.— Crea paneles de control en Amazon QuickSight para visualizar y ayudar a analizar los datos.

La guía utiliza Amazon S3 para almacenar los datos sin procesar y procesados, AWS Lambdapara la computación, Amazon Textract para extraer el contenido de los archivos PDF, DynamoDB para almacenar los datos procesados y Amazon QuickSight para el análisis y las visualizaciones. Esta guía está dirigida a científicos de datos, ingenieros de aprendizaje automático (ML) y arquitectos de soluciones que desean extraer información automáticamente y generar información a partir de archivos PDF.

Resultados comerciales específicos

Tras diseñar una solución automatizada para analizar los archivos PDF enNube de AWS:

Procese automáticamente los datos sin procesar de varios archivos PDF a escala mediante una solución automatizada que se actualiza cuando hay nuevos datos disponibles.
Las aplicaciones de modelado y análisis posteriores (por ejemplo, el modelado ML en Amazon SageMaker) pueden acceder al contenido del archivo PDF extraído.
Tableros de datos que muestran todo el contenido de los archivos PDF a los usuarios finales de Amazon QuickSight.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Arquitectura de referencia