Connectez-vous à Amazon S3 pour accéder à votre base de connaissances Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Connectez-vous à Amazon S3 pour accéder à votre base de connaissances Amazon Bedrock

Amazon S3 est un service de stockage d'objets qui stocke les données en tant qu'objets dans des compartiments. Vous pouvez vous connecter à votre compartiment Amazon S3 pour accéder à votre base de connaissances Amazon Bedrock en utilisant soit la console de AWS gestion pour Amazon Bedrock, soit le CreateDataSourceAPI(voir Amazon Bedrock pris en charge SDKs et). AWS CLI

Vous pouvez charger un petit lot de fichiers dans un compartiment Amazon S3 à l'aide de la console Amazon S3 ouAPI. Vous pouvez également l'utiliser AWS DataSyncpour télécharger plusieurs fichiers sur S3 en continu et transférer des fichiers selon un calendrier depuis un site, un périphérique, un autre cloud ou un AWS stockage.

Actuellement, seuls les compartiments S3 à usage général sont pris en charge.

Le nombre de fichiers et le nombre de Mo par fichier pouvant être analysés sont limités. Voir Quotas pour les bases de connaissances.

Fonctionnalités prises en charge

  • Champs de métadonnées du document

  • Filtres de contenu d'inclusion/exclusion

  • Synchronisation incrémentielle du contenu pour le contenu ajouté, mis à jour et supprimé

Prérequis

Dans Amazon S3, assurez-vous de :

  • Notez le compartiment Amazon S3URI, le nom de ressource Amazon (ARN) et l'ID de AWS compte du propriétaire du compartiment. Vous pouvez trouver le URI et ARN dans la section des propriétés de la console Amazon S3. Votre bucket doit se trouver dans la même région que votre base de connaissances Amazon Bedrock. Vous devez être autorisé à accéder au bucket.

Dans votre AWS compte, assurez-vous de :

  • Incluez les autorisations nécessaires pour vous connecter à votre source de données dans votre politique de rôle/d'autorisations AWS Identity and Access Management (IAM) pour votre base de connaissances. Pour plus d'informations sur les autorisations requises pour que cette source de données soit ajoutée à votre IAM rôle dans la base de connaissances, consultez Autorisations d'accès aux sources de données.

Note

Si vous utilisez la console, le IAM rôle doté de toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de création d'une base de connaissances. Une fois que vous avez configuré votre source de données et les autres configurations, le IAM rôle doté de toutes les autorisations requises est appliqué à votre base de connaissances spécifique.

Configuration de connexion

Pour vous connecter à votre compartiment Amazon S3, vous devez fournir les informations de configuration nécessaires afin qu'Amazon Bedrock puisse accéder à vos données et les analyser. Vous devez également suivre lePrérequis.

Un exemple de configuration pour cette source de données est inclus dans cette section.

Pour plus d'informations sur les filtres d'inclusion/exclusion, les champs de métadonnées des documents, la synchronisation incrémentielle et leur fonctionnement, sélectionnez ce qui suit :

Vous pouvez inclure un fichier distinct qui spécifie les champs/attributs des métadonnées du document pour chaque fichier de votre source de données Amazon S3 et indiquant s'il convient de les inclure dans les intégrations lors de l'indexation de la source de données dans le magasin vectoriel. Par exemple, vous pouvez créer un fichier au format suivant, le nommer example.metadata.json et le télécharger dans votre compartiment S3.

{ "metadataAttributes": { "company": { "value": { "type": "STRING", "stringValue": "BioPharm Innovations" }, "includeForEmbedding": true }, "created_date": { "value": { "type": "NUMBER", "numberValue": 20221205 }, "includeForEmbedding": true }, "author": { "value": { "type": "STRING", "stringValue": "Lisa Thompson" }, "includeForEmbedding": true }, "origin": { "value": { "type": "STRING", "stringValue": "Overview" }, "includeForEmbedding": true } } }

Le fichier de métadonnées doit porter le même nom que le fichier de document source associé, avec .metadata.json un ajout à la fin du nom du fichier. Le fichier de métadonnées doit être stocké dans le même dossier ou au même emplacement que le fichier source dans votre compartiment Amazon S3. Le fichier ne doit pas dépasser la limite de 10 Ko. Pour plus d'informations sur les types de données d'attribut/champ pris en charge et sur les opérateurs de filtrage que vous pouvez appliquer à vos champs de métadonnées, voir Métadonnées et filtrage.

Vous pouvez inclure ou exclure l'exploration de certains contenus. Par exemple, vous pouvez spécifier un modèle d'prefix/regular expression pattern to skip crawling any file that contains “private” in the file name. You could also specify an inclusion prefix/regularexpression d'exclusion pour inclure certaines entités de contenu ou certains types de contenu. Si vous spécifiez un filtre d'inclusion et un filtre d'exclusion et que les deux correspondent à un document, le filtre d'exclusion est prioritaire et le document n'est pas analysé.

Exemple de modèle de filtre pour inclure uniquement les PDF fichiers : « .* \ \ .pdf »

Le connecteur de source de données analyse le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre base de connaissances. Amazon Bedrock peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et explorer le contenu modifié depuis la dernière synchronisation. Lorsque vous synchronisez votre source de données avec votre base de connaissances pour la première fois, tout le contenu est analysé par défaut.

Pour synchroniser votre source de données avec votre base de connaissances, utilisez StartIngestionJobAPIou sélectionnez votre base de connaissances dans la console et sélectionnez Synchroniser dans la section d'aperçu des sources de données.

Important

Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à bedrock:Retrieve toute personne autorisée à les récupérer. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d'informations, consultez la section Autorisations de la base de connaissances.

Console
Pour connecter un compartiment Amazon S3 à votre base de connaissances
  1. Suivez les étapes décrites Création d'une base de connaissances dans les bases de connaissances Amazon Bedrock et choisissez Amazon S3 comme source de données.

  2. Donnez un nom à la source de données.

  3. Spécifiez si le compartiment Amazon S3 se trouve dans votre AWS compte actuel ou dans un autre AWS compte. Votre compartiment doit se trouver dans la même région que la base de connaissances.

  4. (Facultatif) Si le compartiment Amazon S3 est chiffré avec une KMS clé, incluez la clé. Pour de plus amples informations, veuillez consulter Autorisations pour déchiffrer votre AWS KMS clé pour vos sources de données dans Amazon S3.

  5. (Facultatif) Dans la section Analyse et segmentation du contenu, vous pouvez personnaliser le mode d'analyse et de segmentation de vos données. Consultez les ressources suivantes pour en savoir plus sur ces personnalisations :

  6. Dans la section Paramètres avancés, vous pouvez éventuellement configurer les éléments suivants :

    • KMSclé pour le stockage de données transitoires. — Vous pouvez chiffrer les données transitoires tout en les convertissant en données intégrées à l'aide de la clé par défaut Clé gérée par AWS ou de votre propre clé. KMS Pour de plus amples informations, veuillez consulter Chiffrement du stockage des données transitoires lors de l’ingestion de données.

    • Politique de suppression des données — Vous pouvez supprimer les intégrations vectorielles de votre source de données qui sont stockées dans le magasin vectoriel par défaut, ou choisir de conserver les données du magasin vectoriel.

  7. Continuez à choisir un modèle d'intégration et un magasin vectoriel. Pour voir les étapes restantes, revenez à l'étape Création d'une base de connaissances dans les bases de connaissances Amazon Bedrock et poursuivez après avoir connecté votre source de données.

API

Voici un exemple de configuration de connexion à Amazon S3 pour votre base de connaissances Amazon Bedrock. Vous configurez votre source de données en utilisant le API AWS CLI ou pris en chargeSDK, tel que Python. Après avoir appelé CreateKnowledgeBase, vous appelez CreateDataSourcepour créer votre source de données avec vos informations de connexiondataSourceConfiguration.

Pour en savoir plus sur les personnalisations que vous pouvez appliquer à l'ingestion en incluant le vectorIngestionConfiguration champ facultatif, voirPersonnaliser l'ingestion pour une source de données.

AWS Command Line Interface

aws bedrock create-data-source \ --name "S3 connector" \ --description "S3 data source connector for Amazon Bedrock to use content in S3" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://s3-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' s3-bedrock-connector-configuration.json { "s3Configuration": { "bucketArn": "arn:aws:s3:::bucket-name", "bucketOwnerAccountId": "000000000000", "inclusionPrefixes": [ ".*\\.pdf" ] }, "type": "S3" }