Conception d'une solution automatisée pour analyser les fichiers PDF sur AWS Cloud

Tianxia Jia et Yanyan Zhang, Amazon Web Services ()AWS

Octobre 2021 (historique du document)

Organisations utilisent régulièrement des fichiers PDF pour stocker et transférer différents types de données, notamment du texte, des tableaux et des formulaires. Cependant, il peut être difficile d'agréger et d'analyser automatiquement les données de différents fichiers PDF. Par exemple, l'application métier d'une entreprise peut régulièrement ingérer différents fichiers PDF au format identique, mais que les utilisateurs doivent ouvrir et lire individuellement. Cela signifie que les utilisateurs ont du mal à générer des informations utiles à partir de ces fichiers PDF et doivent extraire manuellement les données pertinentes et utiliser des outils tiers pour une analyse plus approfondie.

Sur le cloud Amazon Web Services (AWS), Amazon Textract extrait automatiquement les informations (par exemple, le texte imprimé, les formulaires et les tableaux) des fichiers PDF et produit un fichier au format JSON contenant les informations du fichier PDF d'origine. Pendant le post-traitement, les données extraites sont stockées dans Amazon DynamoDB et vous pouvez générer des informations commerciales à l'aide d'analyses et de visualisations sur Amazon. QuickSight

Ce guide fournit une solution automatisée d'analyse de fichiers PDF sans serveur en quatre phases :

Phase d'ingestion— Préparez un type de fichier PDF que votre organisation génère en permanence (par exemple, un rapport d'exploitation quotidien) et dont vous devez régulièrement extraire des données.
Phase de traitement— Extrayez les valeurs de données requises par vos applications en aval à partir des fichiers PDF.
Phase de stockage des données— Stockez les données extraites sous forme de fichier JSON dans Amazon Simple Storage Service (Amazon S3) et d'enregistrement dans une table DynamoDB.
Phase d'analyse— Créez des tableaux de bord dans Amazon QuickSight pour visualiser et analyser les données.

Le guide utilise Amazon S3 pour stocker les données brutes et traitées, AWS Lambdapour le calcul, Amazon Textract pour extraire le contenu des fichiers PDF, DynamoDB pour stocker les données traitées et Amazon pour les analyses et les visualisations. QuickSight Ce guide est destiné aux scientifiques des données, aux ingénieurs en apprentissage automatique (ML) et aux architectes de solutions qui souhaitent extraire automatiquement des informations et générer des informations à partir de fichiers PDF.

Résultats commerciaux ciblés

Vous devez vous attendre aux trois résultats suivants après avoir conçu une solution automatisée pour analyser des fichiers PDF sur le AWS Cloud :

Traitez automatiquement les données brutes de plusieurs fichiers PDF à grande échelle à l'aide d'une solution automatisée qui s'actualise lorsque de nouvelles données sont disponibles.
Les applications de modélisation et d'analyse en aval (par exemple, la modélisation ML dans Amazon SageMaker AI) peuvent accéder au contenu du fichier PDF extrait.
Des tableaux de bord de données qui présentent tout le contenu des fichiers PDF à vos utilisateurs finaux dans QuickSight.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Architecture de référence