Progettazione di una soluzione automatizzata per analizzare i file PDF suCloud AWS - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Progettazione di una soluzione automatizzata per analizzare i file PDF suCloud AWS

Tianxia Jia e Yanyan Zhang, Amazon Web Services (AWS)

Ottobre 2021 (cronologia dei documenti)

Organizations utilizzano regolarmente i file PDF per archiviare e trasferire diversi tipi di dati, inclusi testo, tabelle e moduli. Tuttavia, può essere difficile aggregare e analizzare automaticamente i dati di diversi file PDF. Ad esempio, l'applicazione aziendale di un'organizzazione potrebbe inserire regolarmente diversi file PDF con un formato identico, ma che gli utenti devono aprire e leggere individualmente. Ciò significa che gli utenti hanno difficoltà a generare informazioni utili da tali file PDF e devono estrarre manualmente i dati pertinenti e utilizzare strumenti di terze parti per ulteriori analisi.

Sul cloud Amazon Web Services (AWS), Amazon Textract estrae automaticamente le informazioni (ad esempio testo stampato, moduli e tabelle) dai file PDF e produce un file in formato JSON che contiene informazioni dal file PDF originale. Durante la post-elaborazione, i dati estratti vengono archiviati in Amazon DynamoDB e puoi generare informazioni aziendali utilizzando analisi e visualizzazioni in Amazon QuickSight.

Questa guida fornisce una soluzione automatizzata e senza server per l'analisi dei file PDF in quattro fasi:

La guida utilizza Amazon S3 per archiviare i dati grezzi ed elaborati, AWS Lambdaper l'elaborazione, Amazon Textract per estrarre contenuti dai file PDF, DynamoDB per archiviare i dati elaborati e Amazon QuickSight per analisi e visualizzazioni. Questa guida è destinata a data scientist, ingegneri di machine learning (ML) e architetti di soluzioni che desiderano estrarre automaticamente informazioni e generare approfondimenti dai file PDF.

Risultati di business mirati

Dovresti aspettarti i seguenti tre risultati dopo aver progettato una soluzione automatizzata per analizzare i file PDF suCloud AWS:

  • Elabora automaticamente i dati grezzi da più file PDF su larga scala utilizzando una soluzione automatizzata che si aggiorna quando diventano disponibili nuovi dati.

  • Le applicazioni di modellazione e analisi downstream (ad esempio, la modellazione ML in Amazon SageMaker) possono accedere al contenuto del file PDF estratto.

  • Dashboard di dati che mostrano tutti i contenuti dei file PDF agli utenti finali in Amazon QuickSight.