Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Connectez-vous à Amazon S3 pour accéder à votre base de connaissances Amazon Bedrock
Amazon S3 est un service de stockage d'objets qui stocke les données en tant qu'objets dans des compartiments. Vous pouvez vous connecter à votre compartiment Amazon S3 pour accéder à votre base de connaissances Amazon Bedrock en utilisant l'un des AWS Console de gestion pour Amazon Bedrock ou CreateDataSourceAPI(voir Amazon Bedrock pris en charge) et SDKs AWS CLI).
Vous pouvez charger un petit lot de fichiers dans un compartiment Amazon S3 à l'aide de la console Amazon S3 ouAPI. Vous pouvez également utiliser AWS DataSyncpour télécharger plusieurs fichiers sur S3 en continu et transférer des fichiers selon un calendrier depuis un site, un périphérique, un autre cloud, ou AWS rangement.
Actuellement, seuls les compartiments S3 à usage général sont pris en charge.
Le nombre de fichiers et le nombre de Mo par fichier pouvant être analysés sont limités. Voir Quotas pour les bases de connaissances.
Fonctionnalités prises en charge
-
Champs de métadonnées du document
-
Filtres de contenu d'inclusion/exclusion
-
Synchronisation incrémentielle du contenu pour le contenu ajouté, mis à jour et supprimé
Prérequis
Dans Amazon S3, assurez-vous de :
-
Notez le compartiment Amazon S3URI, le nom de ressource Amazon (ARN) et le AWS ID de compte pour le propriétaire du bucket. Vous pouvez trouver le URI et ARN dans la section des propriétés de la console Amazon S3. Votre bucket doit se trouver dans la même région que votre base de connaissances Amazon Bedrock. Vous devez être autorisé à accéder au bucket.
Dans votre AWS compte, assurez-vous de :
-
Incluez les autorisations nécessaires pour vous connecter à votre source de données dans votre AWS Identity and Access Management (IAM) politique de rôle/d'autorisations pour votre base de connaissances. Pour plus d'informations sur les autorisations requises pour que cette source de données soit ajoutée à votre base de connaissances IAM rôle, voir Autorisations d'accès aux sources de données.
Si vous utilisez la console, IAM Un rôle avec toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de création d'une base de connaissances. Après avoir configuré votre source de données et d'autres configurations, IAM un rôle doté de toutes les autorisations requises est appliqué à votre base de connaissances spécifique.
Configuration de connexion
Pour vous connecter à votre compartiment Amazon S3, vous devez fournir les informations de configuration nécessaires afin qu'Amazon Bedrock puisse accéder à vos données et les analyser. Vous devez également suivre lePrérequis.
Un exemple de configuration pour cette source de données est inclus dans cette section.
Pour plus d'informations sur les filtres d'inclusion/exclusion, les champs de métadonnées des documents, la synchronisation incrémentielle et leur fonctionnement, sélectionnez ce qui suit :
Vous pouvez inclure un fichier distinct qui spécifie les champs/attributs des métadonnées du document pour chaque fichier dans Amazon S3. Par exemple, le document oscars-coverage_20240310.pdf
contient des articles de presse, qui peuvent être classés par année et par genre. Pour cet exemple, créez et téléchargez dans votre bucket les éléments suivants oscars-coverage_20240310.pdf.metadata.json
dans le fichier.
{
"metadataAttributes": {
"genre": "entertainment",
"year": 2024
}
}
Le fichier de métadonnées doit porter le même nom que le fichier de document source associé, avec .metadata.json
un ajout à la fin du nom du fichier. Le fichier de métadonnées doit être stocké dans le même dossier ou au même emplacement que le fichier source dans votre compartiment Amazon S3. Le fichier ne doit pas dépasser la limite de 10 Ko. Pour plus d'informations sur les types de données d'attribut/champ pris en charge et sur les opérateurs de filtrage que vous pouvez appliquer à vos champs de métadonnées, voir Métadonnées et filtrage.
Vous pouvez inclure ou exclure l'exploration de certains contenus. Par exemple, vous pouvez spécifier un préfixe d'exclusion/un modèle d'expression régulière pour éviter d'analyser tout fichier dont le nom contient le mot « privé ». Vous pouvez également spécifier un préfixe d'inclusion/un modèle d'expression régulière pour inclure certaines entités de contenu ou certains types de contenu. Si vous spécifiez un filtre d'inclusion et un filtre d'exclusion et que les deux correspondent à un document, le filtre d'exclusion est prioritaire et le document n'est pas analysé.
Exemple de modèle de filtre pour inclure uniquement les PDF fichiers : « .* \ \ .pdf »
Le connecteur de source de données analyse le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre base de connaissances. Amazon Bedrock peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et explorer le contenu modifié depuis la dernière synchronisation. Lorsque vous synchronisez votre source de données avec votre base de connaissances pour la première fois, tout le contenu est analysé par défaut.
Pour synchroniser votre source de données avec votre base de connaissances, utilisez StartIngestionJobAPIou sélectionnez votre base de connaissances dans la console et sélectionnez Synchroniser dans la section d'aperçu des sources de données.
Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à bedrock:Retrieve
toute personne autorisée à les récupérer. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d'informations, consultez la section Autorisations de la base de connaissances.
- Console
-
Voici un exemple de configuration de connexion à Amazon S3 pour votre base de connaissances Amazon Bedrock. Vous configurez votre source de données dans le cadre des étapes de création de la base de connaissances dans la console.
-
Connectez-vous au AWS Management Console en utilisant un IAMrôle avec des autorisations Amazon Bedrock, et ouvrez la console Amazon Bedrock à l'adresse. https://console.aws.amazon.com/bedrock/
-
Dans le volet de navigation de gauche, sélectionnez Bases de connaissances.
-
Dans la section Bases de connaissances, sélectionnez Créer une base de connaissances.
-
Fournissez les détails de la base de connaissances.
-
Indiquez le nom de la base de connaissances et une description facultative.
-
Fournissez le AWS Identity and Access Management rôle pour les autorisations d'accès nécessaires à la création d'une base de connaissances.
Le IAM Un rôle avec toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de la console pour créer une base de connaissances. Une fois que vous avez terminé les étapes de création d'une base de connaissances, le IAM un rôle doté de toutes les autorisations requises est appliqué à votre base de connaissances spécifique.
-
Créez les balises que vous souhaitez attribuer à votre base de connaissances.
Passez à la section suivante pour configurer votre source de données.
-
Choisissez Amazon S3 comme source de données et fournissez les détails de configuration de la connexion.
-
Indiquez le nom de la source de données.
-
Spécifiez si votre compartiment Amazon S3 se trouve dans votre AWS compte ou autre AWS .
-
Naviguez depuis un emplacement de compartiment Amazon S3 existant ou fournissez leURI. Vous pouvez trouver le URI et ARN dans la section des propriétés de la console Amazon S3. Votre bucket doit se trouver dans la même région que votre base de connaissances Amazon Bedrock. Vous devez être autorisé à accéder au bucket.
Vous pouvez choisir d'utiliser votre propre outil de gestion AWS KMS clé pour le chiffrement des données.
Vérifiez les paramètres avancés. Vous pouvez éventuellement modifier les paramètres sélectionnés par défaut.
-
Définissez votre clé de chiffrement des données transitoires et votre politique de suppression des données dans les paramètres avancés.
Dans KMS key paramètres, vous pouvez choisir une clé personnalisée ou utiliser la clé de chiffrement des données fournie par défaut.
Lors de la conversion de vos données en intégrations, Amazon Bedrock chiffre vos données transitoires avec une clé qui AWS possède et gère, par défaut. Vous pouvez utiliser votre propre KMS clé. Pour de plus amples informations, veuillez consulter Chiffrement du stockage des données transitoires lors de l’ingestion de données.
Pour les paramètres de politique de suppression des données, vous pouvez choisir l'une des options suivantes :
-
Supprimer : Supprime toutes les données de votre source de données qui sont converties en intégrations vectorielles lors de la suppression d'une base de connaissances ou d'une ressource de source de données. Notez que le magasin vectoriel lui-même n'est pas supprimé, seules les données sont supprimées. Ce drapeau est ignoré si un AWS le compte est supprimé.
-
Conserver : conserve toutes les données de votre source de données qui sont converties en intégrations vectorielles lors de la suppression d'une base de connaissances ou d'une ressource de source de données. Notez que le magasin vectoriel lui-même n'est pas supprimé si vous supprimez une base de connaissances ou une ressource de source de données.
Poursuivez la configuration de votre source de données.
-
Choisissez les configurations de découpage et d'analyse par défaut ou personnalisées.
-
Si vous choisissez des paramètres personnalisés, sélectionnez l'une des options de découpage suivantes :
-
Fragmentation à taille fixe : le contenu est divisé en morceaux de texte de la taille approximative du jeton que vous avez définie. Vous pouvez définir le nombre maximum de jetons qui ne doit pas dépasser pour un bloc et le pourcentage de chevauchement entre des segments consécutifs.
-
Fragmentation par défaut : le contenu est divisé en blocs de texte contenant jusqu'à 300 jetons. Si un seul document ou élément de contenu contient moins de 300 jetons, le document n'est pas scindé davantage.
-
Découpage hiérarchique : contenu organisé en structures imbriquées de segments parent-enfant. Vous définissez la taille maximale du jeton parent et la taille maximale du jeton du fragment enfant. Vous définissez également le nombre absolu de jetons superposés entre les segments parents consécutifs et les segments enfants consécutifs.
-
Découpage sémantique : contenu organisé en blocs de texte ou groupes de phrases sémantiquement similaires. Vous définissez le nombre maximum de phrases entourant la phrase cible/en cours à regrouper (taille de la mémoire tampon). Vous définissez également le seuil du percentile d'arrêt pour diviser le texte en segments significatifs. Le découpage sémantique utilise un modèle de base. Afficher un Amazon Bedrock tarification pour obtenir des informations sur le coût des modèles de base.
-
Pas de découpage : chaque document est traité comme un bloc de texte unique. Vous souhaiterez peut-être prétraiter vos documents en les divisant en fichiers distincts.
Vous ne pouvez pas modifier la stratégie de segmentation après avoir créé la source de données.
-
Vous pouvez choisir d'utiliser Amazon Bedrock est le modèle de base pour analyser des documents afin d'analyser plus que du texte standard. Vous pouvez par exemple analyser des données tabulaires dans des documents dont la structure est intacte. Afficher un Amazon Bedrock tarification pour obtenir des informations sur le coût des modèles de base.
-
Vous pouvez choisir d'utiliser un AWS Lambda fonction pour personnaliser votre stratégie de segmentation et la façon dont les attributs/champs de métadonnées de votre document sont traités et ingérés. Fournissez le Amazon S3 emplacement du bucket pour l'entrée et la sortie de la fonction Lambda.
Passez à la section suivante pour configurer votre magasin de vecteurs.
-
Choisissez un modèle pour convertir vos données en intégrations vectorielles.
Créez une boutique vectorielle pour permettre à Amazon Bedrock de stocker, de mettre à jour et de gérer les intégrations. Vous pouvez créer rapidement un nouveau magasin de vecteurs ou sélectionner l'un des magasins de vecteurs pris en charge que vous avez créé. Si vous créez une nouvelle boutique vectorielle, une collection et un index de recherche vectorielle Amazon OpenSearch Serverless contenant les champs obligatoires sont configurés pour vous. Si vous effectuez une sélection dans un magasin de vecteurs pris en charge, vous devez mapper les noms des champs vectoriels et les noms des champs de métadonnées.
Passez à la section suivante pour passer en revue les configurations de votre base de connaissances.
-
Consultez les détails de votre base de connaissances. Vous pouvez modifier n'importe quelle section avant de créer votre base de connaissances.
Le temps nécessaire à la création de la base de connaissances dépend de vos configurations spécifiques. Lorsque la création de la base de connaissances est terminée, le statut de la base de connaissances change pour indiquer qu'elle est prête ou disponible.
Une fois que votre base de connaissances est prête et disponible, synchronisez votre source de données pour la première fois et chaque fois que vous souhaitez maintenir votre contenu à jour. Sélectionnez votre base de connaissances dans la console, puis sélectionnez Synchroniser dans la section de présentation des sources de données.
- API
-
Voici un exemple de configuration de connexion à Amazon S3 pour votre base de connaissances Amazon Bedrock. Vous configurez votre source de données à l'APIaide du AWS CLI ou pris en chargeSDK, tel que Python. Après avoir appelé CreateKnowledgeBase, vous appelez CreateDataSourcepour créer votre source de données avec vos informations de connexiondataSourceConfiguration
. N'oubliez pas de spécifier également votre stratégie/approche de segmentation vectorIngestionConfiguration
et votre politique de suppression des données dans. dataDeletionPolicy
AWS Command Line Interface
aws bedrock create-data-source \
--name "S3 connector" \
--description "S3 data source connector for Amazon Bedrock to use content in S3" \
--knowledge-base-id "your-knowledge-base-id" \
--data-source-configuration file://s3-bedrock-connector-configuration.json \
--data-deletion-policy "DELETE" \
--vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}'
s3-bedrock-connector-configuration.json
{
"s3Configuration": {
"bucketArn": "arn:aws:s3:::bucket-name",
"bucketOwnerAccountId": "000000000000",
"inclusionPrefixes": [
".*\\.pdf"
]
},
"type": "S3"
}