Fractionnement de documents en cas d’utilisation de projets - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Fractionnement de documents en cas d’utilisation de projets

L’automatisation des données Amazon Bedrock (BDA) prend en charge le fractionnement de documents en cas d’utilisation de l’API Amazon Bedrock. Lorsque cette option est activée, le fractionnement permet à BDA de prendre un fichier PDF contenant plusieurs documents logiques et de le fractionner en documents distincts à des fins de traitement.

Une fois le fractionnement terminé, chaque segment du document fractionné est traité indépendamment. Autrement dit, un document d’entrée peut contenir différents types de documents. Par exemple, si vous avez un fichier PDF contenant 3 relevés bancaires et un formulaire W2, le fractionnement tente de le diviser en 4 documents distincts traités individuellement.

Le fractionnement automatique BDA prend en charge les fichiers de 3 000 pages maximum et les documents individuels de 20 pages maximum chacun.

L’option de fractionnement des documents est désactivée par défaut, mais elle peut être activée lorsque vous utilisez l’API. Voici un exemple de création d’un projet avec l’utilitaire de fractionnement activé. Les points de suspension représentent des plans supplémentaires fournis au projet.

response = client.create_data_automation_project( projectName=project_name, projectDescription="Provide a project description", projectStage='LIVE', standardOutputConfiguration=output_config, customOutputConfiguration={ 'blueprints': [ { 'blueprintArn': Blueprint ARN, 'blueprintStage': 'LIVE' }, ... ] }, overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}} )

La partie qui active le processus de fractionnement est la ligne overrideConfiguration. Cette ligne configure l’utilitaire de fractionnement et vous permet de transmettre plusieurs documents dans le même fichier.

Les documents sont fractionnés selon les limites sémantiques du document.

Le fractionnement des documents s’effectue indépendamment de l’application de plans, et les documents fractionnés sont mis en correspondance avec le plan le plus proche. Pour plus d’informations sur la manière dont BDA met en correspondance des plans, consultez Présentation de la mise en correspondance de plans .

Présentation de la mise en correspondance de plans

La mise en correspondance de plans est basée sur les éléments suivants :

  • Nom du plan

  • Description du plan

  • Champs du plan

Lorsque vous traitez des documents, vous pouvez fournir plusieurs plans à des fins de mise en correspondance. Cela permet de traiter différents types de documents avec des plans appropriés. Vous pouvez fournir plusieurs identifiants de plan lorsque vous appelez l’API d’automatisation des données, puis BDA tente de mettre en correspondance chaque document avec le plan le mieux adapté. Cela permet de traiter des types de documents variés dans un seul lot. Cela est utile lorsque les documents sont censés être de différents types (par ex. relevés bancaires, factures, passeports).

Si vous avez besoin de plans distincts parce que les formats de documents sont très différents ou nécessitent des invites spécialisées, la création d’un plan par type de document peut faciliter la mise en correspondance. Pour plus d’informations sur la création de plans utiles, consultez Bonnes pratiques relatives à la création de plans.

Bonnes pratiques relatives à la création de plans

Suivez les bonnes pratiques suivantes pour tirer le meilleur parti de vos plans :

  • Soyez explicite et détaillé(e) dans les noms et descriptions de plan pour faciliter la mise en correspondance

  • La fourniture de plusieurs plans pertinents permet à BDA de sélectionner la meilleure correspondance. Créez des plans distincts pour des formats de documents très différents

  • Envisagez de créer des plans spécialisés pour chaque fournisseur/source de documents, si vous avez besoin d’une précision maximale

  • N’incluez pas deux plans du même type dans un projet (par ex. deux plans W2). Les informations provenant du document lui-même et du plan permettent de traiter les documents, et l’inclusion de plusieurs plans du même type dans un projet nuit aux performances.

En tirant parti du fractionnement de documents et de la mise en correspondance de plusieurs plans, BDA peut gérer de manière plus flexible des ensembles de documents variés, tout en appliquant la logique d’extraction la plus appropriée à chaque document.