Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Progettazione di una soluzione automatizzata per analizzare i file PDF sul Cloud AWS
Tianxia Jia e Yanyan Zhang, Amazon Web Services ()AWS
Ottobre 2021 (cronologia dei documenti)
Organizations utilizza regolarmente i file PDF per archiviare e trasferire diversi tipi di dati, tra cui testo, tabelle e moduli. Tuttavia, può essere difficile aggregare e analizzare automaticamente i dati di diversi file PDF. Ad esempio, l'applicazione aziendale di un'organizzazione potrebbe importare regolarmente diversi file PDF con un formato identico, ma che gli utenti devono aprire e leggere singolarmente. Ciò significa che gli utenti hanno difficoltà a generare informazioni utili da tali file PDF e devono estrarre manualmente i dati pertinenti e utilizzare strumenti di terze parti per ulteriori analisi.
Sul cloud Amazon Web Services (AWS), Amazon Textract estrae automaticamente le informazioni (ad esempio testo stampato, moduli e tabelle) dai file PDF e produce un file in formato JSON che contiene informazioni dal file PDF originale. Durante la post-elaborazione, i dati estratti vengono archiviati in Amazon DynamoDB e puoi generare informazioni aziendali utilizzando analisi e visualizzazioni in Amazon. QuickSight
Questa guida fornisce una soluzione automatizzata e senza server per l'analisi dei file PDF in quattro fasi:
-
Fase di ingestione— Prepara un tipo di file PDF che l'organizzazione genera continuamente (ad esempio, un rapporto operativo giornaliero) e da cui estrarre regolarmente i dati.
-
Fase di elaborazione— Estrai i valori dei dati richiesti dalle applicazioni downstream dai file PDF.
-
Fase di archiviazione dei dati— Archivia i dati estratti come file JSON in Amazon Simple Storage Service (Amazon S3) e come record in una tabella DynamoDB.
-
Fase di analisi— Crea dashboard in Amazon QuickSight per visualizzare e analizzare i dati.
La guida utilizza Amazon S3 per archiviare i dati grezzi ed elaborati, AWS Lambdaper l'elaborazione, Amazon Textract per estrarre contenuti dai file PDF, DynamoDB per archiviare i dati elaborati e Amazon per analisi e visualizzazioni. QuickSight Questa guida è destinata ai data scientist, agli ingegneri di machine learning (ML) e agli architetti di soluzioni che desiderano estrarre automaticamente informazioni e generare approfondimenti dai file PDF.
Obiettivi aziendali specifici
Dopo aver progettato una soluzione automatizzata per l'analisi dei file PDF su: Cloud AWS
-
Elabora automaticamente i dati grezzi da più file PDF su larga scala utilizzando una soluzione automatizzata che si aggiorna quando diventano disponibili nuovi dati.
-
Le applicazioni di modellazione e analisi downstream (ad esempio, la modellazione ML in Amazon SageMaker AI) possono accedere al contenuto del file PDF estratto.
-
Dashboard di dati che mostrano tutti i contenuti dei file PDF agli utenti finali in. QuickSight