Architettura di riferimento - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Architettura di riferimento

Il diagramma seguente mostra il flusso di lavoro dopo l'applicazione della soluzione automatizzata di questa guida a un rapporto operativo giornaliero. Quando nuovi file vengono inseriti in Amazon Simple Storage Service (Amazon S3), possono essere immediatamente visualizzati in una QuickSight dashboard Amazon dopo l'elaborazione.

Il flusso di lavoro per le quattro fasi di questa soluzione: inserimento, elaborazione, archiviazione e analisi.

Il diagramma mostra le seguenti quattro fasi:

  1. Inserimento di file PDF: l'applicazione inserisce automaticamente nuovi file PDF con un formato identico (ad esempio un rapporto operativo giornaliero) in un bucket Amazon Simple Storage Service (Amazon S3). Amazon S3 avvia un ObjectCreatedevento quando vengono aggiunti nuovi file PDF al bucket e questo richiama unaAWS Lambda funzione. Per maggiori informazioni consulta uso di un trigger Amazon S3 per richiamare una funzione Lambda nella documentazione Amazon S3.

  2. Elaborazione di file PDF: la funzione Lambda invia un file PDF ad Amazon Textract, che ne estrae il contenuto. Uno script di post-elaborazione esegue e analizza la risposta di Amazon Textract e utilizza un modello predefinito per questo tipo di file PDF. Questo modello contiene gli attributi corretti e aiuta a estrarre correttamente tutte le coppie chiave-valore, le tabelle e altro testo non elaborato. Per ulteriori informazioni a riguardo, consulta lo schema Estrazione automatica di contenuti dai file PDF utilizzando Amazon Textract sul sito Web diAWS Prescriptive Guidance.

  3. Archiviazione dei dati: i dati estratti e corretti vengono archiviati in una tabella Amazon DynamoDB, oltre a un file JSON per ogni file PDF. I file JSON sono archiviati in un bucket S3 che può essere utilizzato dai servizi di elaborazione e analisi downstream, come Amazon Athena QuickSight, Amazon o Amazon SageMaker.

  4. Analisi e visualizzazioni: Amazon QuickSight analizza i dati e crea visualizzazioni che aiutano a generare approfondimenti per tutti i file PDF elaborati. Dopo aver creato i dashboard in Amazon QuickSight, puoi condividerli con gli utenti finali e i team aziendali.

Considerazioni

La soluzione di questa guida è adatta per l'elaborazione di file PDF con un formato identico e un layout coerente di moduli e tabelle. Tuttavia, è necessario definire un modello e modificarlo in anticipo per automatizzare completamente il processo e rendere disponibili i dati estratti per l'analisi. Questo modello viene quindi utilizzato durante l'elaborazione con la funzione Lambda.

Sebbene questa soluzione possa essere applicata a diversi tipi di file PDF contemporaneamente, è necessario creare e definire modelli separati per ogni tipo di file PDF e archiviarli in una posizione accessibile (ad esempio Amazon S3). Ti consigliamo di utilizzare un identificatore univoco per ogni tipo di file PDF, ad esempio il nome di un file PDF o cartelle diverse nel bucket S3. La funzione Lambda può quindi richiamare il modello appropriato durante l'elaborazione del tipo di file PDF.