Architettura di riferimento

Il diagramma seguente mostra il flusso di lavoro dopo aver applicato la soluzione automatizzata di questa guida a un rapporto operativo giornaliero. Quando nuovi file vengono importati in Amazon Simple Storage Service (Amazon S3), possono essere visualizzati immediatamente in QuickSight una dashboard dopo l'elaborazione.

Il flusso di lavoro per questa soluzione prevede quattro fasi: ingestione, elaborazione, archiviazione e analisi.

Il diagramma mostra le quattro fasi seguenti:

Inserimento di file PDF: l'applicazione inserisce automaticamente nuovi file PDF con un formato identico (ad esempio, un report operativo giornaliero) in un bucket Amazon Simple Storage Service (Amazon S3). Amazon S3 avvia un ObjectCreatedevento quando vengono aggiunti nuovi file PDF al bucket e questo richiama una funzione. AWS Lambda Per ulteriori informazioni su questo argomento, consulta Usare un trigger di Amazon S3 per richiamare una funzione Lambda nella documentazione di Amazon S3.
Elaborazione di file PDF: la funzione Lambda invia un file PDF ad Amazon Textract, che estrae il contenuto. Uno script di post-elaborazione esegue e analizza la risposta di Amazon Textract e utilizza un modello predefinito per questo tipo di file PDF. Questo modello contiene gli attributi corretti e aiuta a estrarre correttamente tutte le coppie chiave-valore, le tabelle e altro testo non elaborato. Per ulteriori informazioni su questo argomento, consulta lo schema Estrarre automaticamente il contenuto dai file PDF utilizzando Amazon Textract sul sito Web AWS Prescriptive Guidance.
Archiviazione dei dati: i dati estratti e corretti vengono archiviati in una tabella Amazon DynamoDB, oltre a un file JSON per ogni file PDF. I file JSON sono archiviati in un bucket S3 che può essere utilizzato da servizi di elaborazione e analisi a valle, come Amazon Athena o Amazon AI. QuickSight SageMaker
Analisi e visualizzazioni: QuickSight analizza i dati e crea visualizzazioni che aiutano a generare informazioni dettagliate per tutti i file PDF elaborati. Dopo aver creato i dashboard QuickSight, puoi condividerli con gli utenti finali e i team aziendali.

Considerazioni

La soluzione di questa guida è appropriata per l'elaborazione di file PDF con un formato identico e un layout uniforme di moduli e tabelle. Tuttavia, è necessario definire un modello e modificarlo in anticipo per automatizzare completamente il processo e rendere disponibili i dati estratti per l'analisi. Questo modello viene quindi utilizzato durante l'elaborazione con la funzione Lambda.

Sebbene questa soluzione possa essere applicata a diversi tipi di file PDF contemporaneamente, è necessario creare e definire modelli separati per ogni tipo di file PDF e archiviarli in una posizione accessibile (ad esempio, Amazon S3). Ti consigliamo di utilizzare un identificatore univoco per ogni tipo di file PDF, ad esempio un nome di file PDF o cartelle diverse nel tuo bucket S3. La funzione Lambda può quindi richiamare il modello appropriato durante l'elaborazione del tipo di file PDF.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Introduzione

Fasi della soluzione