Mejores prácticas para la fase de ingestión

Fase de ingestión

Su organización identifica un tipo de archivo PDF que se genera continuamente (por ejemplo, un informe de operaciones diarias), que tiene un formato idéntico y del que necesita extraer datos de forma automática y periódica. Para ingerir este archivo PDF, necesita un bucket de Amazon Simple Storage Service (Amazon S3) y le recomendamos que cree un bucket de S3 dedicado. Sin embargo, también puede usar un bucket de S3 existente. Para obtener más información al respecto, consulte Creación de un bucket en la documentación de Amazon S3.

El bucket de S3 invoca una AWS Lambda función cuando se ingiere el nuevo archivo PDF. Para obtener más información al respecto, consulte Uso de un disparador de Amazon S3 para invocar una función Lambda en AWS Lambda la documentación.

A continuación, la función Lambda procesa el archivo PDF. Este proceso se describe en la Fase de procesamiento sección de esta guía.

Mejores prácticas para la fase de ingestión

Utilice las siguientes cuatro prácticas recomendadas para garantizar una correcta ingesta de archivos PDF:

Utilice la ingesta masiva para los archivos PDF históricos y la ingesta continua para los nuevos archivos PDF.
Para la ingestión masiva, utiliza el volcado masivo (por ejemplo, cargar archivos PDF desde una unidad local). Si tienes más de un tipo de archivo PDF, te recomendamos que utilices carpetas diferentes para guardar cada tipo de archivo PDF. También recomendamos utilizar un estándar de nomenclatura único y descriptivo para los archivos, comowarehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf.
Para incorporar nuevos archivos PDF de forma continua, el sistema de origen debe conectarse a su bucket de S3. Por ejemplo, puede configurar un volcado diario desde el sistema de origen al depósito de S3.
Asegúrese de que sus archivos PDF sean de buena calidad y que se puedan leer con claridad. Recomendamos utilizar archivos PDF nativos, pero también puede utilizar documentos escaneados que se conviertan a formato PDF si las palabras individuales son claras. Para obtener más información al respecto, consulte Preprocesamiento de archivos PDF con Amazon Textract: Visuals detection and removal en el blog Machine AWS Learning.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Fases de solución

Fase de procesamiento