Progettazione di una soluzione automatizzata per analizzare i file PDF sul Cloud AWS

Tianxia Jia e Yanyan Zhang, Amazon Web Services ()AWS

Ottobre 2021 (cronologia dei documenti)

Organizations utilizza regolarmente i file PDF per archiviare e trasferire diversi tipi di dati, tra cui testo, tabelle e moduli. Tuttavia, può essere difficile aggregare e analizzare automaticamente i dati di diversi file PDF. Ad esempio, l'applicazione aziendale di un'organizzazione potrebbe importare regolarmente diversi file PDF con un formato identico, ma che gli utenti devono aprire e leggere singolarmente. Ciò significa che gli utenti hanno difficoltà a generare informazioni utili da tali file PDF e devono estrarre manualmente i dati pertinenti e utilizzare strumenti di terze parti per ulteriori analisi.

Sul cloud Amazon Web Services (AWS), Amazon Textract estrae automaticamente le informazioni (ad esempio testo stampato, moduli e tabelle) dai file PDF e produce un file in formato JSON che contiene informazioni dal file PDF originale. Durante la post-elaborazione, i dati estratti vengono archiviati in Amazon DynamoDB e puoi generare informazioni aziendali utilizzando analisi e visualizzazioni in Amazon. QuickSight

Questa guida fornisce una soluzione automatizzata e senza server per l'analisi dei file PDF in quattro fasi:

Fase di ingestione— Prepara un tipo di file PDF che l'organizzazione genera continuamente (ad esempio, un rapporto operativo giornaliero) e da cui estrarre regolarmente i dati.
Fase di elaborazione— Estrai i valori dei dati richiesti dalle applicazioni downstream dai file PDF.
Fase di archiviazione dei dati— Archivia i dati estratti come file JSON in Amazon Simple Storage Service (Amazon S3) e come record in una tabella DynamoDB.
Fase di analisi— Crea dashboard in Amazon QuickSight per visualizzare e analizzare i dati.

La guida utilizza Amazon S3 per archiviare i dati grezzi ed elaborati, AWS Lambdaper l'elaborazione, Amazon Textract per estrarre contenuti dai file PDF, DynamoDB per archiviare i dati elaborati e Amazon per analisi e visualizzazioni. QuickSight Questa guida è destinata ai data scientist, agli ingegneri di machine learning (ML) e agli architetti di soluzioni che desiderano estrarre automaticamente informazioni e generare approfondimenti dai file PDF.

Obiettivi aziendali specifici

Dopo aver progettato una soluzione automatizzata per l'analisi dei file PDF su: Cloud AWS

Elabora automaticamente i dati grezzi da più file PDF su larga scala utilizzando una soluzione automatizzata che si aggiorna quando diventano disponibili nuovi dati.
Le applicazioni di modellazione e analisi downstream (ad esempio, la modellazione ML in Amazon SageMaker AI) possono accedere al contenuto del file PDF estratto.
Dashboard di dati che mostrano tutti i contenuti dei file PDF agli utenti finali in. QuickSight

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Architettura di riferimento