Connectez-vous à Microsoft SharePoint pour votre base de connaissances Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Connectez-vous à Microsoft SharePoint pour votre base de connaissances Amazon Bedrock

Microsoft SharePoint est un service Web collaboratif permettant de travailler sur des documents, des pages Web, des sites Web, des listes, etc. Vous pouvez vous connecter à votre SharePoint instance pour votre base de connaissances Amazon Bedrock en utilisant soit le AWS Console de gestion pour Amazon Bedrock ou CreateDataSourceAPI(voir Amazon Bedrock pris en charge) et SDKs AWS CLI).

Note

Le connecteur de source de SharePoint données Microsoft est en version préliminaire et est sujet à modification.

Amazon Bedrock prend en charge la connexion aux instances SharePoint en ligne. L'exploration de OneNote documents n'est actuellement pas prise en charge. Actuellement, seul le magasin vectoriel Amazon OpenSearch Serverless peut être utilisé avec cette source de données.

Le nombre de fichiers et le nombre de Mo par fichier pouvant être analysés sont limités. Voir Quotas pour les bases de connaissances.

Fonctionnalités prises en charge

  • Détection automatique des principaux champs du document

  • Filtres de contenu d'inclusion/exclusion

  • Synchronisation incrémentielle du contenu pour le contenu ajouté, mis à jour et supprimé

  • OAuthAuthentification 2.0

Prérequis

Dans SharePoint, assurez-vous de :

  • Prenez note de votre site SharePoint en ligneURL/URLs. Par exemple, https://yourdomain.sharepoint.com/sites/mysite. Vous URL devez commencer par https et contiennent sharepoint.com. Votre site URL doit être le SharePoint site réel, et non sharepoint.com/ or sites/mysite/home.aspx

  • Prenez note du nom de domaine de votre instance SharePoint en ligneURL/URLs.

  • (Pour l'authentification OAuth 2.0) Copiez votre identifiant de client Microsoft 365. Vous pouvez trouver votre ID de locataire dans les propriétés de votre portail Azure Active Directory ou dans votre OAuth application.

    Prenez note du nom d'utilisateur et du mot de passe du SharePoint compte administrateur, puis copiez l'ID client et la valeur secrète du client lors de l'enregistrement d'une application.

    Note

    Pour un exemple d'application, voir Enregistrer une application cliente dans Microsoft Entra ID (anciennement Azure Active Directory) sur le site Web de Microsoft Learn.

  • Certaines autorisations de lecture sont requises pour se connecter SharePoint lorsque vous enregistrez une application.

    • SharePoint: AllSites .Read (Delegated) — Lit les éléments de toutes les collections de sites

  • Vous devrez peut-être désactiver les paramètres de sécurité par défaut sur votre portail Azure à l'aide d'un utilisateur administrateur. Pour plus d'informations sur la gestion des paramètres de sécurité par défaut sur le portail Azure, consultez la documentation Microsoft sur la façon d'activer/désactiver les paramètres de sécurité par défaut.

  • Vous devrez peut-être désactiver l'authentification multifactorielle (MFA) dans votre SharePoint compte afin qu'Amazon Bedrock ne soit pas empêché d'explorer votre contenu. SharePoint

Dans votre AWS compte, assurez-vous de  :

  • Stockez vos informations d'authentification dans un AWS Secrets Manageret notez le nom de ressource Amazon (ARN) du secret. Suivez les instructions de configuration de la connexion sur cette page pour inclure les paires clé-valeur qui doivent être incluses dans votre secret.

  • Incluez les autorisations nécessaires pour vous connecter à votre source de données dans votre AWS Identity and Access Management (IAM) politique de rôle/d'autorisations pour votre base de connaissances. Pour plus d'informations sur les autorisations requises pour que cette source de données soit ajoutée à votre base de connaissances IAM rôle, voir Autorisations d'accès aux sources de données.

Note

Si vous utilisez la console, vous pouvez accéder à AWS Secrets Manager pour ajouter votre secret ou utiliser un secret existant dans le cadre de l'étape de configuration de la source de données. Le IAM Un rôle avec toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de la console pour créer une base de connaissances. Après avoir configuré votre source de données et d'autres configurations, IAM un rôle doté de toutes les autorisations requises est appliqué à votre base de connaissances spécifique.

Nous vous recommandons d'actualiser ou de modifier régulièrement vos informations d'identification et votre code secret. Fournissez uniquement le niveau d'accès nécessaire pour votre propre sécurité. Nous vous déconseillons de réutiliser les informations d'identification et les secrets d'une source de données à l'autre.

Configuration de connexion

Pour vous connecter à votre SharePoint instance, vous devez fournir les informations de configuration nécessaires afin qu'Amazon Bedrock puisse accéder à vos données et les analyser. Vous devez également suivre lePrérequis.

Un exemple de configuration pour cette source de données est inclus dans cette section.

Pour plus d'informations sur la détection automatique des champs du document, les filtres d'inclusion/exclusion, la synchronisation incrémentielle, les informations d'authentification secrètes et leur fonctionnement, sélectionnez ce qui suit :

Le connecteur de source de données détecte et explore automatiquement tous les principaux champs de métadonnées de vos documents ou contenus. Par exemple, le connecteur de source de données peut explorer le corps du document équivalent à vos documents, le titre du document, la date de création ou de modification du document, ou d'autres champs principaux susceptibles de s'appliquer à vos documents.

Important

Si votre contenu contient des informations sensibles, Amazon Bedrock pourrait répondre en utilisant des informations sensibles.

Vous pouvez appliquer des opérateurs de filtrage aux champs de métadonnées pour améliorer encore la pertinence des réponses. Par exemple, le document « epoch_modification_time » ou le nombre de secondes écoulées le 1er janvier 1970 pour la dernière mise à jour du document. Vous pouvez filtrer en fonction des données les plus récentes, pour lesquelles « epoch_modification_time » est supérieur à un certain nombre. Pour plus d'informations sur les opérateurs de filtrage que vous pouvez appliquer à vos champs de métadonnées, voir Métadonnées et filtrage.

Vous pouvez inclure ou exclure l'exploration de certains contenus. Par exemple, vous pouvez spécifier un préfixe d'exclusion/un modèle d'expression régulière pour éviter d'analyser tout fichier dont le nom contient le mot « privé ». Vous pouvez également spécifier un préfixe d'inclusion/un modèle d'expression régulière pour inclure certaines entités de contenu ou certains types de contenu. Si vous spécifiez un filtre d'inclusion et un filtre d'exclusion et que les deux correspondent à un document, le filtre d'exclusion est prioritaire et le document n'est pas analysé.

Exemple de modèle d'expression régulière pour exclure ou filtrer PDF les fichiers dont le nom de fichier contient « private » : ». *privé.* \ \ .pdf »

Vous pouvez appliquer des filtres d'inclusion/exclusion aux types de contenu suivants :

  • Page: Titre de la page principale

  • Event: nom de l'événement

  • File: nom du fichier avec son extension pour les pièces jointes et tous les fichiers du document

L'exploration de OneNote documents n'est actuellement pas prise en charge.

Le connecteur de source de données analyse le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre base de connaissances. Amazon Bedrock peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et explorer le contenu modifié depuis la dernière synchronisation. Lorsque vous synchronisez votre source de données avec votre base de connaissances pour la première fois, tout le contenu est analysé par défaut.

Pour synchroniser votre source de données avec votre base de connaissances, utilisez StartIngestionJobAPIou sélectionnez votre base de connaissances dans la console et sélectionnez Synchroniser dans la section de présentation des sources de données.

Important

Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à bedrock:Retrieve toute personne autorisée à les récupérer. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d'informations, consultez la section Autorisations de la base de connaissances.

(Pour l'authentification OAuth 2.0) Vos informations d'authentification secrètes dans AWS Secrets Manager devrait inclure ces paires clé-valeur :

  • username: SharePoint admin username

  • password: SharePoint admin password

  • clientId: app client ID

  • clientSecret: app client secret

Note

Votre secret dans AWS Secrets Manager doit utiliser la même région de votre base de connaissances.

Console

Voici un exemple de configuration pour vous connecter à SharePoint Online pour votre base de connaissances Amazon Bedrock. Vous configurez votre source de données dans le cadre des étapes de création de la base de connaissances dans la console.

  1. Connectez-vous au AWS Management Console en utilisant un IAMrôle avec des autorisations Amazon Bedrock, et ouvrez la console Amazon Bedrock à l'adresse. https://console.aws.amazon.com/bedrock/

  2. Dans le volet de navigation de gauche, sélectionnez Bases de connaissances.

  3. Dans la section Bases de connaissances, sélectionnez Créer une base de connaissances.

  4. Fournissez les détails de la base de connaissances.

    1. Indiquez le nom de la base de connaissances et une description facultative.

    2. Fournissez le AWS Identity and Access Management rôle pour les autorisations d'accès nécessaires à la création d'une base de connaissances.

      Note

      Le IAM Un rôle avec toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de la console pour créer une base de connaissances. Une fois que vous avez terminé les étapes de création d'une base de connaissances, le IAM un rôle doté de toutes les autorisations requises est appliqué à votre base de connaissances spécifique.

    3. Créez les balises que vous souhaitez attribuer à votre base de connaissances.

    Passez à la section suivante pour configurer votre source de données.

  5. Choisissez SharePoint comme source de données et fournissez les détails de configuration de la connexion.

    1. Indiquez le nom de la source de données et une description facultative.

    2. Indiquez votre SharePoint siteURL/URLs. Par exemple, pour SharePoint Online, https://yourdomain.sharepoint.com/sites/mysite. Vous URL devez commencer par https et contiennent sharepoint.com. Votre site URL doit être le SharePoint site réel, et non sharepoint.com/ or sites/mysite/home.aspx

    3. Indiquez le nom de domaine de votre SharePoint instance.

    Vérifiez les paramètres avancés. Vous pouvez éventuellement modifier les paramètres sélectionnés par défaut.

  6. Définissez votre clé de chiffrement des données transitoires et votre politique de suppression des données dans les paramètres avancés.

    Dans KMS key paramètres, vous pouvez choisir une clé personnalisée ou utiliser la clé de chiffrement des données fournie par défaut.

    Lors de la conversion de vos données en intégrations, Amazon Bedrock chiffre vos données transitoires avec une clé qui AWS possède et gère, par défaut. Vous pouvez utiliser votre propre KMS clé. Pour de plus amples informations, veuillez consulter Chiffrement du stockage des données transitoires lors de l’ingestion de données.

    Pour les paramètres de politique de suppression des données, vous pouvez choisir l'une des options suivantes :

    • Supprimer : Supprime toutes les données de votre source de données qui sont converties en intégrations vectorielles lors de la suppression d'une base de connaissances ou d'une ressource de source de données. Notez que le magasin vectoriel lui-même n'est pas supprimé, seules les données sont supprimées. Ce drapeau est ignoré si un AWS le compte est supprimé.

    • Conserver : conserve toutes les données de votre source de données qui sont converties en intégrations vectorielles lors de la suppression d'une base de connaissances ou d'une ressource de source de données. Notez que le magasin vectoriel lui-même n'est pas supprimé si vous supprimez une base de connaissances ou une ressource de source de données.

    Poursuivez la configuration de votre source de données.

  7. Fournissez les informations d'authentification pour vous connecter à votre SharePoint instance :

    1. Pour l'authentification OAuth 2.0, fournissez l'ID du locataire. Vous pouvez trouver votre ID de locataire dans les propriétés de votre portail Azure Active Directory ou dans votre OAuth application.

    2. Pour l'authentification OAuth 2.0, rendez-vous sur AWS Secrets Manager pour ajouter vos informations d'authentification secrètes ou utiliser un nom de ressource Amazon existant (ARN) pour le secret que vous avez créé. Votre code secret doit contenir le nom d'utilisateur et le mot de passe de l' SharePoint administrateur, ainsi que l'identifiant client et le secret client de l'application que vous avez enregistrés. Pour un exemple d'application, voir Enregistrer une application cliente dans Microsoft Entra ID (anciennement Azure Active Directory) sur le site Web de Microsoft Learn.

    Poursuivez la configuration de votre source de données.

  8. Choisissez d'utiliser des filtres/modèles d'expressions régulières pour inclure ou exclure certains contenus. Dans le cas contraire, tout le contenu standard est exploré.

    Poursuivez la configuration de votre source de données.

  9. Choisissez les configurations de découpage et d'analyse par défaut ou personnalisées.

    1. Si vous choisissez des paramètres personnalisés, sélectionnez l'une des options de découpage suivantes :

      • Fragmentation à taille fixe : le contenu est divisé en morceaux de texte de la taille approximative du jeton que vous avez définie. Vous pouvez définir le nombre maximum de jetons qui ne doit pas dépasser pour un bloc et le pourcentage de chevauchement entre des segments consécutifs.

      • Fragmentation par défaut : le contenu est divisé en blocs de texte contenant jusqu'à 300 jetons. Si un seul document ou élément de contenu contient moins de 300 jetons, le document n'est pas scindé davantage.

      • Découpage hiérarchique : contenu organisé en structures imbriquées de segments parent-enfant. Vous définissez la taille maximale du jeton parent et la taille maximale du jeton du fragment enfant. Vous définissez également le nombre absolu de jetons superposés entre les segments parents consécutifs et les segments enfants consécutifs.

      • Segmentation sémantique : contenu organisé en blocs de texte ou groupes de phrases sémantiquement similaires. Vous définissez le nombre maximum de phrases entourant la phrase cible/en cours à regrouper (taille de la mémoire tampon). Vous définissez également le seuil du percentile d'arrêt pour diviser le texte en segments significatifs. Le découpage sémantique utilise un modèle de base. Afficher un Amazon Bedrock tarification pour obtenir des informations sur le coût des modèles de base.

      • Pas de découpage : chaque document est traité comme un bloc de texte unique. Vous souhaiterez peut-être prétraiter vos documents en les divisant en fichiers distincts.

      Note

      Vous ne pouvez pas modifier la stratégie de segmentation après avoir créé la source de données.

    2. Vous pouvez choisir d'utiliser Amazon Bedrock est le modèle de base pour analyser des documents afin d'analyser plus que du texte standard. Vous pouvez analyser des données tabulaires dans des documents avec leur structure intacte, par exemple. Afficher un Amazon Bedrock tarification pour obtenir des informations sur le coût des modèles de base.

    3. Vous pouvez choisir d'utiliser un AWS Lambda fonction pour personnaliser votre stratégie de segmentation et la façon dont les attributs/champs de métadonnées de votre document sont traités et ingérés. Fournissez le Amazon S3 emplacement du bucket pour l'entrée et la sortie de la fonction Lambda.

    Passez à la section suivante pour configurer votre magasin de vecteurs.

  10. Choisissez un modèle pour convertir vos données en intégrations vectorielles.

    Créez un magasin vectoriel pour permettre Amazon Bedrock pour stocker, mettre à jour et gérer les intégrations. Vous pouvez créer rapidement un nouveau magasin de vecteurs ou sélectionner l'un des magasins de vecteurs pris en charge que vous avez créé. Actuellement, seul le magasin vectoriel Amazon OpenSearch Serverless peut être utilisé avec cette source de données. Si vous créez une nouvelle boutique vectorielle, une collection et un index de recherche vectorielle Amazon OpenSearch Serverless contenant les champs obligatoires sont configurés pour vous. Si vous effectuez une sélection dans un magasin de vecteurs pris en charge, vous devez mapper les noms des champs vectoriels et les noms des champs de métadonnées.

    Passez à la section suivante pour passer en revue les configurations de votre base de connaissances.

  11. Consultez les détails de votre base de connaissances. Vous pouvez modifier n'importe quelle section avant de créer votre base de connaissances.

    Note

    Le temps nécessaire à la création de la base de connaissances dépend de vos configurations spécifiques. Lorsque la création de la base de connaissances est terminée, le statut de la base de connaissances change pour indiquer qu'elle est prête ou disponible.

    Une fois que votre base de connaissances est prête et disponible, synchronisez votre source de données pour la première fois et chaque fois que vous souhaitez maintenir votre contenu à jour. Sélectionnez votre base de connaissances dans la console, puis sélectionnez Synchroniser dans la section de présentation des sources de données.

API

Voici un exemple de configuration pour vous connecter à SharePoint Online pour votre base de connaissances Amazon Bedrock. Vous configurez votre source de données à l'APIaide du AWS CLI ou pris en chargeSDK, tel que Python. Après avoir appelé CreateKnowledgeBase, vous appelez CreateDataSourcepour créer votre source de données avec vos informations de connexiondataSourceConfiguration. N'oubliez pas de spécifier également votre stratégie/approche de segmentation vectorIngestionConfiguration et votre politique de suppression des données dans. dataDeletionPolicy

AWS Command Line Interface

aws bedrock create-data-source \ --name "SharePoint Online connector" \ --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' sharepoint-bedrock-connector-configuration.json { "sharePointConfiguration": { "sourceConfiguration": { "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de", "hostType": "ONLINE", "domain": "yourdomain", "siteUrls": [ "https://yourdomain.sharepoint.com/sites/mysite" ], "authType": "OAUTH2_CLIENT_CREDENTIALS", "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint" }, "crawlerConfiguration": { "filterConfiguration": { "type": "PATTERN", "patternObjectFilter": { "filters": [ { "objectType": "File", "inclusionFilters": [ ".*\\.pdf" ], "exclusionFilters": [ ".*private.*\\.pdf" ] } ] } } } }, "type": "SHAREPOINT" }