Phase de stockage des données - AWS Directives prescriptives

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Phase de stockage des données

Étant donné que le contenu des fichiers PDF comprend généralement des formulaires (paires clé-valeur), des tableaux et du texte libre, le fichier JSON doit inclure des paires clé-valeur imbriquées pour représenter la structure du fichier PDF et stocker les données extraites. Les fichiers PDF sont des données non structurées ou semi-structurées, ce qui signifie qu'ils n'ont pas de schéma fixe. Cela signifie qu'il peut être difficile de stocker le contenu d'un fichier PDF dans une base de données SQL traditionnelle. Cependant, une base de données NoSQL est idéale pour stocker le contenu de fichiers PDF car elle ne nécessite pas de schéma prédéfini. Une fois le contenu du fichier PDF extrait et post-traité, vous pouvez le stocker sous la forme d'un enregistrement pour chaque fichier PDF dans un tableau Amazon DynamoDB.

Nous vous recommandons de stocker les données extraites finales sous forme de fichier JSON dans Amazon Simple Storage Service (Amazon S3) et d'enregistrer dans une table DynamoDB. Vos applications de traitement et d'analyse en aval peuvent facilement référencer des fichiers JSON dans Amazon S3. Par exemple, ils peuvent utiliser Amazon S3 comme source de données pour créer des modèles ML dans Amazon SageMaker, interroger directement le fichier JSON à l'aide d'Amazon Athena ou utiliser Amazon S3 comme source de données pour Amazon QuickSight. Le contenu des fichiers PDF extraits stockés dans les tables DynamoDB est facilement accessible avec une faible latence à n'importe quelle échelle, ce qui rend cette approche appropriée en tant que base de données principale pour les requêtes et les scans.

Bonnes pratiques relatives à la phase de stockage des données

Utilisez les deux meilleures pratiques suivantes pour garantir le succès de la phase de stockage des données :

  • Assurez-vous de stocker le fichier JSON final sur Amazon S3 dans un dossier de sortie différent et d'utiliser un nom basé sur le type de fichier PDF.

  • DynamoDB utilise une clé primaire pour identifier de façon unique chaque élément d'une table. La clé primaire peut être une clé unique (par exemple, une clé de partition) ou une clé composite (par exemple, une clé de partition et une clé de tri). Pour la clé primaire de cette solution, nous vous recommandons d'utiliser un identifiant de fichier PDF unique (par exemple, le nom du fichier PDF) comme clé de partition ou une combinaison de deux identifiants (par exemple, date et nom de l'entrepôt) comme clé de partition et clé de tri. Pour plus d'informations à ce sujet, consultez la section Composants principaux d'Amazon DynamoDB dans la documentation Amazon DynamoDB.