Le migliori pratiche per la fase di ingestione

Fase di ingestione

L'organizzazione identifica un tipo di file PDF che viene generato continuamente (ad esempio, un rapporto operativo giornaliero), ha un formato identico e da cui è necessario estrarre i dati automaticamente e regolarmente. Per importare questo file PDF, è necessario un bucket Amazon Simple Storage Service (Amazon S3) e ti consigliamo di creare un bucket S3 dedicato. Tuttavia, puoi anche utilizzare un bucket S3 esistente. Per ulteriori informazioni su questo argomento, consulta Creazione di un bucket nella documentazione di Amazon S3.

Il bucket S3 richiama una AWS Lambda funzione quando viene importato il nuovo file PDF. Per ulteriori informazioni su questo argomento, consulta Usare un trigger di Amazon S3 per richiamare una funzione Lambda nella documentazione. AWS Lambda

La funzione Lambda elabora quindi il file PDF. Questo processo è descritto nella Fase di elaborazione sezione di questa guida.

Le migliori pratiche per la fase di ingestione

Utilizza le seguenti quattro best practice per garantire una corretta importazione di file PDF:

Utilizza l'inserimento in blocco per i file PDF storici e l'inserimento continuo per i nuovi file PDF.
Per l'ingestione in blocco, utilizzate il bulk dump (ad esempio, caricando file PDF da un'unità locale). Se hai più di un tipo di file PDF, ti consigliamo di utilizzare cartelle diverse per contenere ogni tipo di file PDF. Ti consigliamo inoltre di utilizzare uno standard di denominazione univoco e descrittivo per i file, ad esempio. warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf
Per importare continuamente nuovi file PDF, il sistema di origine deve connettersi al bucket S3. Ad esempio, puoi impostare un dump giornaliero dal tuo sistema di origine al bucket S3.
Assicurati che i tuoi file PDF siano di buona qualità e chiaramente leggibili. Ti consigliamo di utilizzare file PDF nativi, ma puoi anche utilizzare documenti scansionati che vengono convertiti in formato PDF se le singole parole sono chiare. Per ulteriori informazioni su questo argomento, consulta Preelaborazione dei file PDF con Amazon Textract: rilevamento e rimozione di elementi visivi sul Machine AWS Learning Blog.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Fasi della soluzione

Fase di elaborazione