OneDrive Connecteur Microsoft V2.0 - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

OneDrive Connecteur Microsoft V2.0

Microsoft OneDrive est un service de stockage basé sur le cloud que vous pouvez utiliser pour stocker, partager et héberger votre contenu. Vous pouvez l'utiliser Amazon Kendra pour indexer votre source de OneDrive données.

Vous pouvez vous connecter Amazon Kendra à votre source de OneDrive données à l'aide de la Amazon Kendra console et de l'OneDriveConfigurationAPI.

Note

Support pour OneDrive Connector V1.0/ OneDriveConfiguration API devrait prendre fin en juin 2023. Nous vous recommandons d'utiliser OneDrive Connector TemplateConfiguration V2.0/API. La version 2.0 fournit des ACL supplémentaires et des fonctionnalités d'explorateur d'identité.

Pour résoudre les problèmes liés à votre connecteur de source de Amazon Kendra OneDrive données, consultezDépannage des sources de données.

Fonctionnalités prises en charge

Amazon Kendra OneDrive le connecteur de source de données prend en charge les fonctionnalités suivantes :

  • Mappages de champs

  • Contrôle d'accès utilisateur

  • Filtres d'inclusion/exclusion

  • Synchronisation complète et incrémentielle du contenu

  • Cloud privé virtuel (VPC)

Prérequis

Avant de pouvoir Amazon Kendra indexer votre source de OneDrive données, apportez ces modifications à vos AWS comptes OneDrive and.

Dans OneDrive, assurez-vous d'avoir :

  • Vous avez créé un OneDrive compte dans Office 365.

  • Vous avez noté votre identifiant de client Microsoft 365. Vous pouvez trouver votre ID de locataire dans les propriétés de votre portail Azure Active Directory ou dans votre application OAuth.

  • Vous avez créé une application OAuth sur le portail Azure et avez noté l'ID client et le secret du client ou les informations d'identification du client utilisées pour l'authentification avec un AWS Secrets Manager secret. Consultez le didacticiel Microsoft et l'exemple d'application enregistrée pour plus d'informations.

    Note

    Lorsque vous créez ou enregistrez une application sur le portail Azure, l'ID secret représente la valeur secrète réelle. Vous devez prendre note ou enregistrer la valeur secrète réelle immédiatement lors de la création du secret et de l'application. Vous pouvez accéder à votre secret en sélectionnant le nom de votre application sur le portail Azure, puis en accédant à l'option de menu sur les certificats et les secrets.

    Vous pouvez accéder à votre ID client en sélectionnant le nom de votre application sur le portail Azure, puis en accédant à la page de présentation. L'ID de l'application (client) est l'ID du client.

    Note

    Nous vous recommandons d'actualiser ou de modifier régulièrement vos informations d'identification et votre code secret. Fournissez uniquement le niveau d'accès nécessaire pour votre propre sécurité. Nous vous déconseillons de réutiliser les informations d'identification et les secrets entre les sources de données et les versions 1.0 et 2.0 du connecteur (le cas échéant).

  • A utilisé l'ID de l'application AD pour enregistrer une clé secrète pour l'application sur le site AD. La clé secrète doit contenir l'ID de l'application et une clé secrète.

  • Vous avez copié le domaine AD de l'organisation.

  • Vous avez ajouté les autorisations suivantes à votre application AD sur l'option Microsoft Graph :

    • Lire des fichiers dans toutes les collections de sites (File.Read.All)

    • Lire les profils complets de tous les utilisateurs (User.Read.All)

    • Lire tous les groupes (Group.Read.All)

    • Lire toutes les notes (Notes.Read.All)

  • Copie de la liste des utilisateurs dont les documents doivent être indexés. Vous pouvez choisir de fournir une liste de noms d'utilisateur ou de fournir les noms d'utilisateur dans un fichier stocké dans un Amazon S3. Après avoir créé la source de données, vous pouvez :

    • Modifiez la liste des utilisateurs.

    • Passez d'une liste d'utilisateurs à une liste stockée dans un Amazon S3 bucket.

    • Modifiez l'emplacement du Amazon S3 compartiment d'une liste d'utilisateurs. Si vous modifiez l'emplacement du compartiment, vous devez également mettre à jour le IAM rôle de la source de données afin qu'elle ait accès au compartiment.

      Note

      Si vous stockez la liste des noms d'utilisateur dans un Amazon S3 bucket, la IAM politique de la source de données doit fournir l'accès au bucket et l'accès à la clé avec laquelle le bucket a été chiffré, le cas échéant.

      Le OneDrive connecteur utilise le courrier électronique provenant des informations de contact présentes dans les propriétés utilisateur de Onedrive. Assurez-vous que le champ e-mail de l'utilisateur dont vous souhaitez analyser les données est configuré dans la page Informations de contact, car pour les nouveaux utilisateurs, ce champ peut être vide.

Dans votre AWS compte, assurez-vous d'avoir :

  • Création d'un Amazon Kendra index et, si vous utilisez l'API, notez l'identifiant de l'index.

  • Vous avez créé un IAM rôle pour votre source de données et, si vous utilisez l'API, notez l'ARN du IAM rôle.

  • Stockez vos informations d' OneDrive authentification dans un AWS Secrets Manager secret et, si vous utilisez l'API, notez l'ARN du secret.

Si vous n'avez pas de IAM rôle ou de secret existant, vous pouvez utiliser la console pour créer un nouveau IAM rôle et un nouveau Secrets Manager secret lorsque vous connectez votre source de OneDrive données à Amazon Kendra. Si vous utilisez l'API, vous devez fournir l'ARN d'un IAM rôle et d'un Secrets Manager secret existants, ainsi qu'un identifiant d'index.

Instructions de connexion

Pour vous connecter Amazon Kendra à votre source de OneDrive données, vous devez fournir les détails de vos OneDrive informations d'identification afin de Amazon Kendra pouvoir accéder à vos données. Si vous n'avez pas encore configuré OneDrive pour Amazon Kendra, consultezPrérequis.

Console

Pour vous connecter Amazon Kendra à OneDrive

  1. Connectez-vous à la Amazon Kendra console AWS Management Console et ouvrez-la.

  2. Dans le volet de navigation de gauche, choisissez Index, puis choisissez l'index que vous souhaitez utiliser dans la liste des index.

    Note

    Vous pouvez choisir de configurer ou de modifier vos paramètres de contrôle d'accès utilisateur dans les paramètres de l'index.

  3. Sur la page de démarrage, choisissez Ajouter une source de données.

  4. Sur la page Ajouter une source de données, choisissez OneDrive connecteur, puis sélectionnez Ajouter un connecteur. Si vous utilisez la version 2 (le cas échéant), choisissez le OneDrive connecteur avec la balise « V2.0 ».

  5. Sur la page Spécifier les détails de la source de données, entrez les informations suivantes :

    1. Dans Nom et description, pour Nom de la source de données : entrez le nom de votre source de données. Vous pouvez inclure des tirets, mais pas des espaces.

    2. (Facultatif) Description : entrez une description facultative pour votre source de données.

    3. Dans la langue par défaut : choisissez une langue pour filtrer vos documents pour l'index. Sauf indication contraire, la langue par défaut est l'anglais. La langue spécifiée dans les métadonnées du document remplace la langue sélectionnée.

    4. Dans Balises, pour Ajouter une nouvelle balise : incluez des balises facultatives pour rechercher et filtrer vos ressources ou suivre vos AWS coûts.

    5. Choisissez Suivant.

  6. Sur la page Définir l'accès et la sécurité, entrez les informations suivantes :

    1. OneDrive ID du locataire —Entrez l'ID du OneDrive locataire sans le protocole.

    2. Autorisation : activez ou désactivez les informations de la liste de contrôle d'accès (ACL) pour vos documents, si vous disposez d'une ACL et que vous souhaitez l'utiliser pour le contrôle d'accès. L'ACL indique les documents auxquels les utilisateurs et les groupes peuvent accéder. Les informations ACL sont utilisées pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Pour plus d'informations, consultez la section Filtrage du contexte utilisateur.

    3. Dans Authentification, choisissez entre nouveau et existant.

      1. Si vous choisissez Existant, sélectionnez un secret existant pour Sélectionner un secret.

      2. Si vous choisissez Nouveau, entrez les informations suivantes dans la section Nouveau AWS Secrets Manager secret :

        1. Nom secret : nom de votre secret. Le préfixe « AmazonKendra - OneDrive - » est automatiquement ajouté à votre nom secret.

        2. Pour l'ID client et le secret du client : entrez l'ID client et le secret du client.

    4. Virtual Private Cloud (VPC) —Vous pouvez choisir d'utiliser un VPC. Dans ce cas, vous devez ajouter des sous-réseaux et des groupes de sécurité VPC.

    5. Identity Crawler : spécifiez s'il faut activer l'explorateur Amazon Kendra d'identité. Le robot d'exploration d'identité utilise les informations de la liste de contrôle d'accès (ACL) de vos documents pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Si vous disposez d'une ACL pour vos documents et que vous choisissez de l'utiliser, vous pouvez également choisir d'activer le robot d'exploration Amazon Kendra d'identité pour configurer le filtrage des résultats de recherche par contexte utilisateur. Sinon, si le robot d'identification est désactivé, tous les documents peuvent être consultés publiquement. Si vous souhaitez utiliser le contrôle d'accès pour vos documents et que le robot d'exploration d'identité est désactivé, vous pouvez également utiliser l'PutPrincipalMappingAPI pour télécharger les informations d'accès des utilisateurs et des groupes afin de filtrer le contexte utilisateur.

    6. IAM rôle —Choisissez un IAM rôle existant ou créez-en un nouveau IAM pour accéder aux informations d'identification de votre référentiel et indexer le contenu.

      Note

      IAM les rôles utilisés pour les index ne peuvent pas être utilisés pour les sources de données. Si vous ne savez pas si un rôle existant est utilisé pour un index ou une FAQ, choisissez Créer un nouveau rôle pour éviter les erreurs.

    7. Choisissez Suivant.

  7. Sur la page Configurer les paramètres de synchronisation, entrez les informations suivantes :

    1. Pour l'étendue de la synchronisation : choisissez les OneDrive données des utilisateurs à indexer. Vous pouvez ajouter un maximum de 10 utilisateurs manuellement.

    2. Pour les configurations supplémentaires : ajoutez des modèles d'expressions régulières pour inclure ou exclure certains contenus. Vous pouvez ajouter jusqu'à 100 motifs.

    3. Mode de synchronisation : choisissez la manière dont vous souhaitez mettre à jour votre index lorsque le contenu de votre source de données change. Lorsque vous synchronisez votre source de données Amazon Kendra pour la première fois, tout le contenu est analysé et indexé par défaut. Vous devez exécuter une synchronisation complète de vos données en cas d'échec de la synchronisation initiale, même si vous ne choisissez pas l'option de synchronisation complète comme mode de synchronisation.

      • Synchronisation complète : Indexez tout le contenu fraîchement, en remplaçant le contenu existant chaque fois que votre source de données se synchronise avec votre index.

      • Nouvelle synchronisation modifiée : indexez uniquement le contenu nouveau et modifié chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.

      • Synchronisation nouvelle, modifiée ou supprimée : Indexez uniquement le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.

    4. Dans Calendrier d'exécution de la synchronisation, pour Fréquence : choisissez la fréquence à laquelle vous souhaitez synchroniser le contenu de votre source de données et mettre à jour votre index.

    5. Choisissez Suivant.

  8. Sur la page Définir les mappages de champs, entrez les informations suivantes :

    1. Champs de source de données par défaut : sélectionnez parmi les champs de source de données par défaut Amazon Kendra générés que vous souhaitez mapper à votre index.

    2. Choisissez Suivant.

  9. Sur la page Réviser et créer, vérifiez que les informations saisies sont correctes, puis sélectionnez Ajouter une source de données. Vous pouvez également choisir de modifier vos informations à partir de cette page. Votre source de données apparaîtra sur la page Sources de données une fois que la source de données aura été ajoutée avec succès.

API

Pour vous connecter Amazon Kendra à OneDrive

Vous devez spécifier un JSON du schéma de source de données à l'aide de l'TemplateConfigurationAPI. Vous devez fournir les informations suivantes :

  • Source de données —Spécifiez le type de source de données tel que ONEDRIVEV2 lorsque vous utilisez le schéma TemplateConfigurationJSON. Spécifiez également la source de données TEMPLATE lorsque vous appelez l'CreateDataSourceAPI.

  • ID de locataire —Spécifiez l'ID de locataire Microsoft 365. Vous pouvez trouver votre ID de locataire dans les propriétés de votre portail Azure Active Directory ou dans votre application OAuth.

  • Mode de synchronisation : spécifiez comment Amazon Kendra mettre à jour votre index lorsque le contenu de votre source de données change. Lorsque vous synchronisez votre source de données Amazon Kendra pour la première fois, tout le contenu est analysé et indexé par défaut. Vous devez exécuter une synchronisation complète de vos données en cas d'échec de la synchronisation initiale, même si vous ne choisissez pas l'option de synchronisation complète comme mode de synchronisation. Vous pouvez choisir entre :

    • FORCED_FULL_CRAWLpour indexer à nouveau tout le contenu, en remplaçant le contenu existant chaque fois que votre source de données se synchronise avec votre index.

    • FULL_CRAWLpour indexer uniquement le contenu nouveau, modifié et supprimé chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.

    • CHANGE_LOGpour indexer uniquement le contenu nouveau et modifié chaque fois que votre source de données se synchronise avec votre index. Amazon Kendra peut utiliser le mécanisme de votre source de données pour suivre les modifications de contenu et indexer le contenu modifié depuis la dernière synchronisation.

  • Nom de ressource Amazon (ARN) secret : indiquez le nom de ressource Amazon (ARN) d'un Secrets Manager secret contenant les informations d'authentification que vous avez créées dans votre OneDrive compte.

    Si vous utilisez l'authentification OAuth 2.0, le secret est stocké dans une structure JSON avec les clés suivantes :

    { "clientId": "client ID", "clientSecret": "client secret" }
  • IAM role —Spécifiez à quel RoleArn moment vous appelez CreateDataSource pour fournir à un IAM rôle les autorisations d'accéder à votre Secrets Manager secret et pour appeler les API publiques requises pour le OneDrive connecteur et Amazon Kendra. Pour plus d'informations, consultez la section IAM Rôles des sources de OneDrive données.

Vous pouvez également ajouter les fonctionnalités optionnelles suivantes :

  • Virtual Private Cloud (VPC) VpcConfiguration —Spécifiez le moment de votre appel. CreateDataSource Pour plus d’informations, consultez Configuration Amazon Kendra pour utiliser un Amazon VPC.

  • Filtres d'inclusion et d'exclusion : vous pouvez indiquer si vous souhaitez inclure ou exclure certains fichiers, OneNote sections et OneNote pages.

    Note

    La plupart des sources de données utilisent des modèles d'expressions régulières, qui sont des modèles d'inclusion ou d'exclusion appelés filtres. Si vous spécifiez un filtre d'inclusion, seul le contenu correspondant au filtre d'inclusion est indexé. Tout document qui ne correspond pas au filtre d'inclusion n'est pas indexé. Si vous spécifiez un filtre d'inclusion et d'exclusion, les documents correspondant au filtre d'exclusion ne sont pas indexés, même s'ils correspondent au filtre d'inclusion.

  • Identity Crawler : spécifiez s'il faut activer l'explorateur Amazon Kendra d'identité. Le robot d'exploration d'identité utilise les informations de la liste de contrôle d'accès (ACL) de vos documents pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Si vous disposez d'une ACL pour vos documents et que vous choisissez de l'utiliser, vous pouvez également choisir d'activer le robot d'exploration Amazon Kendra d'identité pour configurer le filtrage des résultats de recherche par contexte utilisateur. Sinon, si le robot d'identification est désactivé, tous les documents peuvent être consultés publiquement. Si vous souhaitez utiliser le contrôle d'accès pour vos documents et que le robot d'exploration d'identité est désactivé, vous pouvez également utiliser l'PutPrincipalMappingAPI pour télécharger les informations d'accès des utilisateurs et des groupes afin de filtrer le contexte utilisateur.

  • Mappages de champs : vous ne pouvez mapper que des champs d'index intégrés ou communs pour le Amazon Kendra OneDrive connecteur. Le mappage de champs personnalisé n'est pas disponible pour le OneDrive connecteur en raison des limites de l'API. Pour plus d'informations, veuillez consulter la rubrique Mappage des champs de source de données.

Pour obtenir la liste des autres clés JSON importantes à configurer, consultez le schéma du OneDrive modèle.