Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Progettazione di una soluzione automatizzata per analizzare i file PDF suCloud AWS
Tianxia Jia e Yanyan Zhang, Amazon Web Services (AWS)
Ottobre 2021 (cronologia dei documenti)
Organizations utilizzano regolarmente i file PDF per archiviare e trasferire diversi tipi di dati, inclusi testo, tabelle e moduli. Tuttavia, può essere difficile aggregare e analizzare automaticamente i dati di diversi file PDF. Ad esempio, l'applicazione aziendale di un'organizzazione potrebbe inserire regolarmente diversi file PDF con un formato identico, ma che gli utenti devono aprire e leggere individualmente. Ciò significa che gli utenti hanno difficoltà a generare informazioni utili da tali file PDF e devono estrarre manualmente i dati pertinenti e utilizzare strumenti di terze parti per ulteriori analisi.
Sul cloud Amazon Web Services (AWS), Amazon Textract estrae automaticamente le informazioni (ad esempio testo stampato, moduli e tabelle) dai file PDF e produce un file in formato JSON che contiene informazioni dal file PDF originale. Durante la post-elaborazione, i dati estratti vengono archiviati in Amazon DynamoDB e puoi generare informazioni aziendali utilizzando analisi e visualizzazioni in Amazon QuickSight.
Questa guida fornisce una soluzione automatizzata e senza server per l'analisi dei file PDF in quattro fasi:
-
Fase di ingestione— Prepara un tipo di file PDF che la tua organizzazione genera continuamente (ad esempio, un rapporto giornaliero sulle operazioni) e da cui devi estrarre regolarmente i dati.
-
Fase di lavorazione— Estrai i valori dei dati richiesti dalle tue applicazioni downstream dai file PDF.
-
Fase di archiviazione dati— Archivia i dati estratti come file JSON in Amazon Simple Storage Service (Amazon S3) e come record in una tabella DynamoDB.
-
Fase di analisi— Crea dashboard in Amazon QuickSight per visualizzare e aiutare ad analizzare i dati.
La guida utilizza Amazon S3 per archiviare i dati grezzi ed elaborati, AWS Lambdaper l'elaborazione, Amazon Textract per estrarre contenuti dai file PDF, DynamoDB per archiviare i dati elaborati e Amazon QuickSight per analisi e visualizzazioni. Questa guida è destinata a data scientist, ingegneri di machine learning (ML) e architetti di soluzioni che desiderano estrarre automaticamente informazioni e generare approfondimenti dai file PDF.
Risultati di business mirati
Dovresti aspettarti i seguenti tre risultati dopo aver progettato una soluzione automatizzata per analizzare i file PDF suCloud AWS:
-
Elabora automaticamente i dati grezzi da più file PDF su larga scala utilizzando una soluzione automatizzata che si aggiorna quando diventano disponibili nuovi dati.
-
Le applicazioni di modellazione e analisi downstream (ad esempio, la modellazione ML in Amazon SageMaker) possono accedere al contenuto del file PDF estratto.
-
Dashboard di dati che mostrano tutti i contenuti dei file PDF agli utenti finali in Amazon QuickSight.