Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Connectez-vous à Amazon S3 pour accéder à votre base de connaissances Amazon Bedrock
Amazon S3 est un service de stockage d'objets qui stocke les données en tant qu'objets dans des compartiments. Vous pouvez vous connecter à votre compartiment Amazon S3 pour accéder à votre base de connaissances Amazon Bedrock en utilisant soit la console de AWS gestion pour Amazon Bedrock
Vous pouvez charger un petit lot de fichiers dans un compartiment Amazon S3 à l'aide de la console Amazon S3 ouAPI. Vous pouvez également l'utiliser AWS DataSyncpour télécharger plusieurs fichiers sur S3 en continu et transférer des fichiers selon un calendrier depuis un site, un périphérique, un autre cloud ou un AWS stockage.
Actuellement, seuls les compartiments S3 à usage général sont pris en charge.
Le nombre de fichiers et le nombre de Mo par fichier pouvant être analysés sont limités. Voir Quotas pour les bases de connaissances.
Fonctionnalités prises en charge
-
Champs de métadonnées du document
-
Filtres de contenu d'inclusion/exclusion
-
Synchronisation incrémentielle du contenu pour le contenu ajouté, mis à jour et supprimé
Prérequis
Dans Amazon S3, assurez-vous de :
-
Notez le compartiment Amazon S3URI, le nom de ressource Amazon (ARN) et l'ID de AWS compte du propriétaire du compartiment. Vous pouvez trouver le URI et ARN dans la section des propriétés de la console Amazon S3. Votre bucket doit se trouver dans la même région que votre base de connaissances Amazon Bedrock. Vous devez être autorisé à accéder au bucket.
Dans votre AWS compte, assurez-vous de :
-
Incluez les autorisations nécessaires pour vous connecter à votre source de données dans votre politique de rôle/d'autorisations AWS Identity and Access Management (IAM) pour votre base de connaissances. Pour plus d'informations sur les autorisations requises pour que cette source de données soit ajoutée à votre IAM rôle dans la base de connaissances, consultez Autorisations d'accès aux sources de données.
Note
Si vous utilisez la console, le IAM rôle doté de toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de création d'une base de connaissances. Une fois que vous avez configuré votre source de données et les autres configurations, le IAM rôle doté de toutes les autorisations requises est appliqué à votre base de connaissances spécifique.
Configuration de connexion
Pour vous connecter à votre compartiment Amazon S3, vous devez fournir les informations de configuration nécessaires afin qu'Amazon Bedrock puisse accéder à vos données et les analyser. Vous devez également suivre lePrérequis.
Un exemple de configuration pour cette source de données est inclus dans cette section.
Pour plus d'informations sur les filtres d'inclusion/exclusion, les champs de métadonnées des documents, la synchronisation incrémentielle et leur fonctionnement, sélectionnez ce qui suit :
Vous pouvez inclure un fichier distinct qui spécifie les champs/attributs des métadonnées du document pour chaque fichier de votre source de données Amazon S3 et indiquant s'il convient de les inclure dans les intégrations lors de l'indexation de la source de données dans le magasin vectoriel. Par exemple, vous pouvez créer un fichier au format suivant, le nommer example.metadata.json
et le télécharger dans votre compartiment S3.
{ "metadataAttributes": { "company": { "value": { "type": "STRING", "stringValue": "BioPharm Innovations" }, "includeForEmbedding": true }, "created_date": { "value": { "type": "NUMBER", "numberValue": 20221205 }, "includeForEmbedding": true }, "author": { "value": { "type": "STRING", "stringValue": "Lisa Thompson" }, "includeForEmbedding": true }, "origin": { "value": { "type": "STRING", "stringValue": "Overview" }, "includeForEmbedding": true } } }
Le fichier de métadonnées doit porter le même nom que le fichier de document source associé, avec .metadata.json
un ajout à la fin du nom du fichier. Le fichier de métadonnées doit être stocké dans le même dossier ou au même emplacement que le fichier source dans votre compartiment Amazon S3. Le fichier ne doit pas dépasser la limite de 10 Ko. Pour plus d'informations sur les types de données d'attribut/champ pris en charge et sur les opérateurs de filtrage que vous pouvez appliquer à vos champs de métadonnées, voir Métadonnées et filtrage.
Vous pouvez inclure ou exclure l'exploration de certains contenus. Par exemple, vous pouvez spécifier un modèle d'prefix/regular expression pattern to skip crawling any file that contains “private” in the file name. You could also specify an inclusion prefix/regularexpression d'exclusion pour inclure certaines entités de contenu ou certains types de contenu. Si vous spécifiez un filtre d'inclusion et un filtre d'exclusion et que les deux correspondent à un document, le filtre d'exclusion est prioritaire et le document n'est pas analysé.
Exemple de modèle de filtre pour inclure uniquement les PDF fichiers : « .* \ \ .pdf »
Le connecteur de source de données analyse le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre base de connaissances. Amazon Bedrock peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et explorer le contenu modifié depuis la dernière synchronisation. Lorsque vous synchronisez votre source de données avec votre base de connaissances pour la première fois, tout le contenu est analysé par défaut.
Pour synchroniser votre source de données avec votre base de connaissances, utilisez StartIngestionJobAPIou sélectionnez votre base de connaissances dans la console et sélectionnez Synchroniser dans la section d'aperçu des sources de données.
Important
Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à bedrock:Retrieve
toute personne autorisée à les récupérer. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d'informations, consultez la section Autorisations de la base de connaissances.