Fase de ingestión - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Fase de ingestión

Su organización identifica un tipo de archivo PDF que se genera de forma continua (por ejemplo, un informe de operaciones diario), tiene un formato idéntico y del que necesita extraer datos de forma automática y regular. Para incorporar este archivo PDF, necesita un bucket de Amazon Simple Storage Service (Amazon S3) y le recomendamos que cree un bucket de S3 dedicado. Sin embargo, también puede usar un bucket de S3 existente. Para obtener más información al respecto, consulte Creación de un bucket en la documentación de Amazon S3.

El bucket S3 invoca unaAWS Lambda función cuando se ingiere el nuevo archivo PDF. Para obtener más información al respecto, consulte Uso de un desencadenador de Amazon S3 para invocar una función de Lambda en laAWS Lambda documentación de la documentación.

A continuación, la función Lambda procesa el archivo PDF. Este proceso se describe en laFase de procesamiento sección de esta guía.

Prácticas recomendadas recomendadas para la fase de ingestión de ingestión.

Utilice las cuatro prácticas recomendadas siguientes para garantizar una correcta ingestión de archivos PDF:

  • Utilice la ingestión masiva para los archivos PDF históricos y la ingestión continua para los nuevos archivos PDF.

  • Para la ingestión masiva, utilice el volcado masivo (por ejemplo, cargar archivos PDF desde una unidad local). Si tiene más de un tipo de archivo PDF, le recomendamos que utilice diferentes carpetas para guardar cada tipo de archivo PDF. También recomendamos utilizar un estándar de nomenclatura único y descriptivo para los archivos, por ejemplowarehouse_<wharehouse_number>_<mmddyy>_<PDF_file_type>.pdf.

  • Para ingerir nuevos archivos PDF de forma continua, el sistema fuente debe conectarse a su bucket S3. Por ejemplo, puede configurar un volcado diario desde su sistema de origen al bucket S3.

  • Asegúrese de que sus archivos PDF sean de buena calidad y legibles con claridad. Recomendamos utilizar archivos PDF nativos, pero también puede utilizar documentos escaneados convertidos a formato PDF si las palabras individuales son claras. Para obtener más información al respecto, consulte Preprocesamiento de archivos PDF con Amazon Textract: detección y eliminación de imágenes en el blogAWS Machine Learning.