Phase d'ingestion - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Phase d'ingestion

Votre organisation identifie un type de fichier PDF généré en continu (par exemple, un rapport d'exploitation quotidien), dont le format est identique et dont vous devez extraire automatiquement et régulièrement des données. Pour intégrer ce fichier PDF, vous avez besoin d'un compartiment Amazon Simple Storage Service (Amazon S3). Nous vous recommandons de créer un compartiment S3 dédié. Toutefois, vous pouvez aussi utiliser un compartiment S3 existant. Pour plus d'informations à ce sujet, consultez Création d'un compartiment dans la documentation Amazon S3.

Le compartiment S3 invoque uneAWS Lambda fonction lorsque le nouveau fichier PDF est ingéré. Pour plus d'informations à ce sujet, consultez Utilisation d'un déclencheur Amazon S3 pour appeler une fonction Lambda dans laAWS Lambda documentation.

La fonction Lambda traite ensuite le fichier PDF. Ce processus est décrit dans laPhase de traitement section de ce guide.

Bonnes pratiques relatives à la phase d'ingestion

Utilisez les quatre meilleures pratiques suivantes pour garantir la réussite de l'ingestion de fichiers PDF :

  • Utilisez l'ingestion en masse pour les fichiers PDF historiques et l'ingestion continue pour les nouveaux fichiers PDF.

  • Pour l'ingestion en masse, utilisez le vidage en masse (par exemple, pour télécharger des fichiers PDF à partir d'un lecteur local). Si vous avez plusieurs types de fichiers PDF, nous vous recommandons d'utiliser des dossiers différents pour contenir chaque type de fichier PDF. Nous recommandons également d'utiliser une norme de dénomination unique et descriptive pour les fichiers, telle quewarehouse_<wharehouse_number>_<mmddyy>_<PDF_file_type>.pdf.

  • Pour ingérer continuellement de nouveaux fichiers PDF, votre système source doit se connecter à votre compartiment S3. Par exemple, vous pouvez configurer un vidage quotidien de votre système source vers le compartiment S3.

  • Assurez-vous que vos fichiers PDF sont de bonne qualité et clairement lisibles. Nous vous recommandons d'utiliser des fichiers PDF natifs, mais vous pouvez également utiliser des documents numérisés convertis au format PDF si les mots individuels sont clairs. Pour plus d'informations à ce sujet, voir Prétraitement des fichiers PDF avec Amazon Textract : détection et suppression de visuels sur le blogAWS Machine Learning.