Fase di ingestione - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Fase di ingestione

L'organizzazione identifica un tipo di file PDF generato continuamente (ad esempio, un rapporto giornaliero sulle operazioni), ha un formato identico e da cui è necessario estrarre dati automaticamente e regolarmente. Per inserire questo file PDF è necessario un bucket Amazon Simple Storage Service (Amazon S3) e ti consigliamo di creare un bucket S3 dedicato. Tuttavia, è anche possibile utilizzare un bucket S3 esistente. Per maggiori informazioni consulta Creazione di un bucket nella documentazione di Amazon S3.

Il bucket S3 richiama unaAWS Lambda funzione quando viene inserito il nuovo file PDF. Per maggiori informazioni in merito consulta Uso di un trigger Amazon S3 per richiamare una funzione Lambda nellaAWS Lambda documentazione.

La funzione Lambda elabora quindi il file PDF. Questo processo è descritto nellaFase di lavorazione sezione di questa guida.

Best practice per la fase di ingestione

Utilizza le seguenti quattro best practice per garantire una corretta acquisizione di file PDF:

  • Usa l'acquisizione in blocco per i file PDF storici e l'inserimento continuo per i nuovi file PDF.

  • Per l'inserimento di massa, usa il dump in blocco (ad esempio, il caricamento di file PDF da un'unità locale). Se hai più di un tipo di file PDF, ti consigliamo di utilizzare cartelle diverse per contenere ogni tipo di file PDF. Consigliamo inoltre di utilizzare uno standard di denominazione univoco e descrittivo per i file, ad esempiowarehouse_<wharehouse_number>_<mmddyy>_<PDF_file_type>.pdf.

  • Per inserire continuamente nuovi file PDF, il sistema di origine deve connettersi al bucket S3. Ad esempio, puoi impostare un dump giornaliero dal tuo sistema sorgente al bucket S3.

  • Assicurati che i tuoi file PDF siano di buona qualità e chiaramente leggibili. Ti consigliamo di utilizzare file PDF nativi, ma puoi anche utilizzare documenti scansionati che vengono convertiti in formato PDF se le singole parole sono chiare. Per ulteriori informazioni a riguardo, consulta la pagina Preelaborazione di file PDF con Amazon Textract: rilevamento e rimozione di immagini sul blog diAWS Machine Learning.