Bonnes pratiques pour la phase d'ingestion

Phase d'ingestion

Votre organisation identifie un type de fichier PDF généré en continu (par exemple, un rapport des opérations quotidiennes), dont le format est identique et dont vous devez extraire des données automatiquement et régulièrement. Pour ingérer ce fichier PDF, vous avez besoin d'un compartiment Amazon Simple Storage Service (Amazon S3) et nous vous recommandons de créer un compartiment S3 dédié. Toutefois, vous pouvez également utiliser un compartiment S3 existant. Pour plus d'informations à ce sujet, consultez la section Création d'un compartiment dans la documentation Amazon S3.

Le compartiment S3 appelle une AWS Lambda fonction lorsque le nouveau fichier PDF est ingéré. Pour plus d'informations à ce sujet, consultez la section Utilisation d'un déclencheur Amazon S3 pour appeler une fonction Lambda dans la AWS Lambda documentation.

La fonction Lambda traite ensuite le fichier PDF. Ce processus est décrit dans la Phase de traitement section de ce guide.

Bonnes pratiques pour la phase d'ingestion

Utilisez les quatre meilleures pratiques suivantes pour garantir une ingestion réussie des fichiers PDF :

Utilisez l'ingestion en masse pour les fichiers PDF historiques et l'ingestion continue pour les nouveaux fichiers PDF.
Pour une ingestion en masse, utilisez le vidage en masse (par exemple, téléchargez des fichiers PDF depuis un lecteur local). Si vous possédez plusieurs types de fichiers PDF, nous vous recommandons d'utiliser des dossiers différents pour chaque type de fichier PDF. Nous recommandons également d'utiliser une norme de dénomination unique et descriptive pour les fichiers, telle quewarehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf.
Pour ingérer en permanence de nouveaux fichiers PDF, votre système source doit se connecter à votre compartiment S3. Par exemple, vous pouvez configurer un vidage quotidien de votre système source vers le compartiment S3.
Assurez-vous que vos fichiers PDF sont de bonne qualité et clairement lisibles. Nous vous recommandons d'utiliser des fichiers PDF natifs, mais vous pouvez également utiliser des documents numérisés convertis au format PDF si les mots individuels sont clairs. Pour plus d'informations à ce sujet, consultez la section Prétraitement de fichiers PDF avec Amazon Textract : détection et suppression de visuels sur le blog Machine AWS Learning.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Phases de solution

Phase de traitement