Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Personnaliser l'ingestion pour une source de données

Mode de mise au point
Personnaliser l'ingestion pour une source de données - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Vous pouvez personnaliser l'ingestion vectorielle lorsque vous connectez une source de données dans le AWS Management Console ou en modifiant la valeur du vectorIngestionConfiguration champ lors de l'envoi d'une CreateDataSourcedemande.

Sélectionnez une rubrique pour savoir comment inclure des configurations permettant de personnaliser l'ingestion lors de la connexion à une source de données :

Choisissez l'outil à utiliser pour l'analyse

Vous pouvez personnaliser la façon dont les documents contenus dans vos données sont analysés. Pour en savoir plus sur les options d'analyse des données dans les bases de connaissances Amazon Bedrock, consultez. Options d'analyse pour votre source de données

Dans le, AWS Management Console vous choisissez la stratégie d'analyse lorsque vous vous connectez à une source de données. Avec l'API Amazon Bedrock, vous incluez un ParsingConfigurationdans le parsingConfiguration champ du VectorIngestionConfiguration.

Note

Si vous omettez cette configuration, les bases de connaissances Amazon Bedrock utilisent l'analyseur par défaut Amazon Bedrock.

Développez la section correspondant à la stratégie d'analyse que vous souhaitez utiliser :

Pour utiliser l'analyseur par défaut, n'incluez aucun parsingConfiguration champ dans leVectorIngestionConfiguration.

Pour utiliser l'analyseur par défaut, n'incluez aucun parsingConfiguration champ dans leVectorIngestionConfiguration.

Pour utiliser l'analyseur Amazon Bedrock Data Automation, spécifiez BEDROCK_DATA_AUTOMATION dans le parsingStrategy champ ParsingConfiguration et incluez un BedrockDataAutomationConfigurationdans le bedrockDataAutomationConfiguration champ, au format suivant :

{ "parsingStrategy": "BEDROCK_DATA_AUTOMATION", "bedrockDataAutomationConfiguration": { "parsingModality": "string" } }

Pour utiliser l'analyseur Amazon Bedrock Data Automation, spécifiez BEDROCK_DATA_AUTOMATION dans le parsingStrategy champ ParsingConfiguration et incluez un BedrockDataAutomationConfigurationdans le bedrockDataAutomationConfiguration champ, au format suivant :

{ "parsingStrategy": "BEDROCK_DATA_AUTOMATION", "bedrockDataAutomationConfiguration": { "parsingModality": "string" } }

Pour utiliser un modèle de base comme analyseur, spécifiez le BEDROCK_FOUNDATION_MODEL dans le parsingStrategy champ du ParsingConfiguration et incluez un BedrockFoundationModelConfigurationdans le bedrockFoundationModelConfiguration champ, selon le format suivant :

{ "parsingStrategy": "BEDROCK_FOUNDATION_MODEL", "bedrockFoundationModelConfiguration": { "modelArn": "string", "parsingModality": "string", "parsingPrompt": { "parsingPromptText": "string" } } }

Pour utiliser un modèle de base comme analyseur, spécifiez le BEDROCK_FOUNDATION_MODEL dans le parsingStrategy champ du ParsingConfiguration et incluez un BedrockFoundationModelConfigurationdans le bedrockFoundationModelConfiguration champ, selon le format suivant :

{ "parsingStrategy": "BEDROCK_FOUNDATION_MODEL", "bedrockFoundationModelConfiguration": { "modelArn": "string", "parsingModality": "string", "parsingPrompt": { "parsingPromptText": "string" } } }

Choisissez une stratégie de segmentation

Vous pouvez personnaliser la façon dont les documents contenus dans vos données sont segmentés à des fins de stockage et de récupération. Pour en savoir plus sur les options de segmentation des données dans les bases de connaissances Amazon Bedrock, consultez. Comment fonctionne le découpage du contenu pour les bases de connaissances

Avertissement

Vous ne pouvez pas modifier la stratégie de segmentation après vous être connecté à la source de données.

Dans le, AWS Management Console vous choisissez la stratégie de segmentation lorsque vous vous connectez à une source de données. Avec l'API Amazon Bedrock, vous incluez un ChunkingConfigurationdans le chunkingConfiguration champ du VectorIngestionConfiguration.

Note

Si vous omettez cette configuration, Amazon Bedrock divise votre contenu en morceaux d'environ 300 jetons, tout en préservant les limites de phrases.

Développez la section correspondant à la stratégie d'analyse que vous souhaitez utiliser :

Pour traiter chaque document de votre source de données comme un bloc source unique, spécifiez-le NONE dans le chunkingStrategy champ duChunkingConfiguration, au format suivant :

{ "chunkingStrategy": "NONE" }

Pour traiter chaque document de votre source de données comme un bloc source unique, spécifiez-le NONE dans le chunkingStrategy champ duChunkingConfiguration, au format suivant :

{ "chunkingStrategy": "NONE" }

Pour diviser chaque document de votre source de données en morceaux de taille approximativement identique, spécifiez FIXED_SIZE dans le chunkingStrategy champ du ChunkingConfiguration et incluez un FixedSizeChunkingConfigurationdans le fixedSizeChunkingConfiguration champ, comme dans le format suivant :

{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }

Pour diviser chaque document de votre source de données en morceaux de taille approximativement identique, spécifiez FIXED_SIZE dans le chunkingStrategy champ du ChunkingConfiguration et incluez un FixedSizeChunkingConfigurationdans le fixedSizeChunkingConfiguration champ, comme dans le format suivant :

{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }

Pour diviser chaque document de votre source de données en deux niveaux, la deuxième couche contenant de plus petits fragments dérivés de la première couche, spécifiez HIERARCHICAL dans le chunkingStrategy champ ChunkingConfiguration et incluez le hierarchicalChunkingConfiguration champ, comme dans le format suivant :

{ "chunkingStrategy": "HIERARCHICAL", "hierarchicalChunkingConfiguration": { "levelConfigurations": [{ "maxTokens": number }], "overlapTokens": number } }

Pour diviser chaque document de votre source de données en deux niveaux, la deuxième couche contenant de plus petits fragments dérivés de la première couche, spécifiez HIERARCHICAL dans le chunkingStrategy champ ChunkingConfiguration et incluez le hierarchicalChunkingConfiguration champ, comme dans le format suivant :

{ "chunkingStrategy": "HIERARCHICAL", "hierarchicalChunkingConfiguration": { "levelConfigurations": [{ "maxTokens": number }], "overlapTokens": number } }

Pour diviser chaque document de votre source de données en segments qui privilégient le sens sémantique par rapport à la structure syntaxique, spécifiez SEMANTIC dans le chunkingStrategy champ ChunkingConfiguration et incluez le semanticChunkingConfiguration champ, comme dans le format suivant :

{ "chunkingStrategy": "SEMANTIC", "semanticChunkingConfiguration": { "breakpointPercentileThreshold": number, "bufferSize": number, "maxTokens": number } }

Pour diviser chaque document de votre source de données en segments qui privilégient le sens sémantique par rapport à la structure syntaxique, spécifiez SEMANTIC dans le chunkingStrategy champ ChunkingConfiguration et incluez le semanticChunkingConfiguration champ, comme dans le format suivant :

{ "chunkingStrategy": "SEMANTIC", "semanticChunkingConfiguration": { "breakpointPercentileThreshold": number, "bufferSize": number, "maxTokens": number } }

Utiliser une fonction Lambda lors de l'ingestion

Vous pouvez post-traiter la façon dont les fragments source de vos données sont écrits dans le magasin vectoriel à l'aide d'une fonction Lambda de la manière suivante :

  • Incluez une logique de découpage pour fournir une stratégie de découpage personnalisée.

  • Incluez une logique pour spécifier les métadonnées au niveau des segments.

Pour en savoir plus sur l'écriture d'une fonction Lambda personnalisée pour l'ingestion, voir. Utilisez une fonction Lambda de transformation personnalisée pour définir la manière dont vos données sont ingérées Dans le, AWS Management Console vous choisissez la fonction Lambda lorsque vous vous connectez à une source de données. Avec l'API Amazon Bedrock, vous incluez un CustomTransformationConfigurationdans le CustomTransformationConfiguration champ du Lambda VectorIngestionConfigurationet spécifiez l'ARN du Lambda, comme dans le format suivant :

{ "transformations": [{ "transformationFunction": { "transformationLambdaConfiguration": { "lambdaArn": "string" } }, "stepToApply": "POST_CHUNKING" }], "intermediateStorage": { "s3Location": { "uri": "string" } } }

Vous spécifiez également l'emplacement S3 dans lequel stocker la sortie après avoir appliqué la fonction Lambda.

Vous pouvez inclure le chunkingConfiguration champ pour appliquer la fonction Lambda après avoir appliqué l'une des options de découpage proposées par Amazon Bedrock.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.