Progettazione di una soluzione automatizzata per analizzare i file PDF sul Cloud AWS - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Progettazione di una soluzione automatizzata per analizzare i file PDF sul Cloud AWS

Tianxia Jia e Yanyan Zhang, Amazon Web Services ()AWS

Ottobre 2021 (cronologia dei documenti)

Organizations utilizza regolarmente i file PDF per archiviare e trasferire diversi tipi di dati, tra cui testo, tabelle e moduli. Tuttavia, può essere difficile aggregare e analizzare automaticamente i dati di diversi file PDF. Ad esempio, l'applicazione aziendale di un'organizzazione potrebbe importare regolarmente diversi file PDF con un formato identico, ma che gli utenti devono aprire e leggere singolarmente. Ciò significa che gli utenti hanno difficoltà a generare informazioni utili da tali file PDF e devono estrarre manualmente i dati pertinenti e utilizzare strumenti di terze parti per ulteriori analisi.

Sul cloud Amazon Web Services (AWS), Amazon Textract estrae automaticamente le informazioni (ad esempio testo stampato, moduli e tabelle) dai file PDF e produce un file in formato JSON che contiene informazioni dal file PDF originale. Durante la post-elaborazione, i dati estratti vengono archiviati in Amazon DynamoDB e puoi generare informazioni aziendali utilizzando analisi e visualizzazioni in Amazon. QuickSight

Questa guida fornisce una soluzione automatizzata e senza server per l'analisi dei file PDF in quattro fasi:

La guida utilizza Amazon S3 per archiviare i dati grezzi ed elaborati, AWS Lambdaper l'elaborazione, Amazon Textract per estrarre contenuti dai file PDF, DynamoDB per archiviare i dati elaborati e Amazon per analisi e visualizzazioni. QuickSight Questa guida è destinata ai data scientist, agli ingegneri di machine learning (ML) e agli architetti di soluzioni che desiderano estrarre automaticamente informazioni e generare approfondimenti dai file PDF.

Obiettivi aziendali specifici

Dopo aver progettato una soluzione automatizzata per l'analisi dei file PDF su: Cloud AWS

  • Elabora automaticamente i dati grezzi da più file PDF su larga scala utilizzando una soluzione automatizzata che si aggiorna quando diventano disponibili nuovi dati.

  • Le applicazioni di modellazione e analisi downstream (ad esempio, la modellazione ML in Amazon SageMaker AI) possono accedere al contenuto del file PDF estratto.

  • Dashboard di dati che mostrano tutti i contenuti dei file PDF agli utenti finali in. QuickSight