Conception d'une solution automatisée pour analyser les fichiers PDF surAWS Cloud - AWS Directives prescriptives

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Conception d'une solution automatisée pour analyser les fichiers PDF surAWS Cloud

Tianxia Jia et Yanyan Zhang, Amazon Web Services (AWS)

Octobre 2021 (historique du document)

Organizations utilisent régulièrement des fichiers PDF pour stocker et transférer différents types de données, notamment du texte, des tableaux et des formulaires. Cependant, il peut être difficile d'agréger et d'analyser automatiquement les données de différents fichiers PDF. Par exemple, l'application professionnelle d'une organisation peut régulièrement ingérer différents fichiers PDF au format identique, mais que les utilisateurs doivent ouvrir et lire individuellement. Cela signifie que les utilisateurs ont du mal à générer des informations utiles à partir de ces fichiers PDF et doivent extraire manuellement les données pertinentes et utiliser des outils tiers pour une analyse plus approfondie.

Sur le cloud Amazon Web Services (AWS), Amazon Textract extrait automatiquement des informations (par exemple, du texte imprimé, des formulaires et des tableaux) des fichiers PDF et produit un fichier au format JSON contenant les informations du fichier PDF d'origine. Pendant le post-traitement, les données extraites sont stockées dans Amazon DynamoDB et vous pouvez générer des informations commerciales à l'aide d'analyses et de visualisations sur Amazon QuickSight.

Ce guide fournit une solution d'analyse de fichiers PDF automatisée et sans serveur en quatre phases :

  • Phase d'ingestion— Préparez un type de fichier PDF que votre organisation génère en permanence (par exemple, un rapport d'exploitation quotidien) et dont vous devez extraire régulièrement des données.

  • Phase de traitement— Extrayez les valeurs de données requises par vos applications en aval à partir des fichiers PDF.

  • Phase de stockage des données— Stockez les données extraites sous forme de fichier JSON dans Amazon Simple Storage Service (Amazon S3) et sous forme d'enregistrement dans une table DynamoDB.

  • Phase d'analyse— Créez des tableaux de bord dans Amazon QuickSight pour visualiser et analyser les données.

Le guide utilise Amazon S3 pour stocker les données brutes et traitées, AWS Lambdapour le calcul, Amazon Textract pour extraire le contenu des fichiers PDF, DynamoDB pour stocker les données traitées et Amazon QuickSight pour les analyses et les visualisations. Ce guide est destiné aux scientifiques des données, aux ingénieurs en machine learning (ML) et aux architectes de solutions qui souhaitent extraire automatiquement des informations et des informations à partir de fichiers PDF.

Résultats commerciaux ciblés

Vous devriez vous attendre aux trois résultats suivants après avoir conçu une solution automatisée pour analyser les fichiers PDF surAWS Cloud :

  • Traitez automatiquement les données brutes de plusieurs fichiers PDF à grande échelle à l'aide d'une solution automatisée qui est actualisée dès que de nouvelles données sont disponibles.

  • Les applications de modélisation et d'analyse en aval (par exemple, la modélisation ML sur Amazon SageMaker) peuvent accéder au contenu du fichier PDF extrait.

  • Des tableaux de bord de données qui présentent tout le contenu des fichiers PDF à vos utilisateurs finaux sur Amazon QuickSight.