Amazon RDS/Aurora - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Amazon RDS/Aurora

Vous pouvez indexer des documents stockés dans une base de données à l'aide d'une source de données de base de données. Après avoir fourni les informations de connexion pour la base de données, Amazon Kendra connecte et indexe les documents.

Amazon Kendra prend en charge les bases de données suivantes :

  • Amazon Aurora MySQL

  • Amazon Aurora PostgreSQL

  • Amazon RDS pour MySQL

  • Amazon RDS pour PostgreSQL

Note

Les bases de données Aurora sans serveur ne sont pas prises en charge.

Important

La dépréciation de ce connecteur Amazon RDS/Aurora est prévue pour fin 2023.

Amazon Kendra prend désormais en charge les nouveaux connecteurs de source de données de base de données. Pour une meilleure expérience, nous vous recommandons de choisir l'un des nouveaux connecteurs suivants pour votre cas d'utilisation :

Vous pouvez vous connecter Amazon Kendra à la source de données de votre base de données à l'aide de la Amazon Kendra console et de l'DatabaseConfigurationAPI.

Pour résoudre les problèmes liés à votre connecteur de source de données de Amazon Kendra base de données, consultezDépannage des sources de données.

Fonctionnalités prises en charge

Amazon Kendra le connecteur de source de données de base de données prend en charge les fonctionnalités suivantes :

  • Mappages de champs

  • Filtrage du contexte utilisateur

  • Cloud privé virtuel (VPC)

Prérequis

Avant de pouvoir Amazon Kendra indexer la source de données de votre base de données, apportez ces modifications à votre base de données et à vos AWS comptes.

Dans votre base de données, assurez-vous d'avoir :

  • Notez vos informations d'authentification de base, à savoir le nom d'utilisateur et le mot de passe de votre base de données.

  • Vous avez copié le nom d'hôte, le numéro de port, l'adresse de l'hôte, le nom de la base de données et le nom de la table de données contenant les données du document. Pour PostgreSQL, la table de données doit être une table publique ou un schéma public.

    Note

    L'hôte et le port indiquent Amazon Kendra où se trouve le serveur de base de données sur Internet. Le nom de la base de données et le nom de la table indiquent Amazon Kendra où se trouvent les données du document sur le serveur de base de données.

  • Les noms des colonnes de la table de données contenant les données du document ont été copiés. Vous devez inclure l'ID du document, le corps du document, les colonnes pour détecter si un document a changé (par exemple, dernière colonne mise à jour) et les colonnes facultatives de la table de données qui correspondent à des champs d'index personnalisés. Vous pouvez également associer n'importe quel nom de champ Amazon Kendra réservé à une colonne de table.

  • Vous avez copié les informations relatives au type de moteur de base de données, par exemple si vous l'utilisez Amazon RDS pour MySQL ou un autre type.

  • Il est vérifié que chaque document est unique dans la base de données et dans les autres sources de données que vous prévoyez d'utiliser pour le même index. Chaque source de données que vous souhaitez utiliser pour un index ne doit pas contenir le même document dans toutes les sources de données. Les identifiants de document sont globaux à un index et doivent être uniques par index.

Dans votre Compte AWS, assurez-vous d'avoir :

  • Création d'un Amazon Kendra index et, si vous utilisez l'API, notez l'ID de l'index.

  • Vous avez créé un IAM rôle pour votre source de données et, si vous utilisez l'API, notez l'ARN du IAM rôle.

    Note

    Si vous modifiez votre type d'authentification et vos informations d'identification, vous devez mettre à jour votre IAM rôle pour accéder au bon identifiant AWS Secrets Manager secret.

  • Stockez les informations d'authentification de votre base de données dans un AWS Secrets Manager secret et, si vous utilisez l'API, notez l'ARN du secret.

    Note

    Nous vous recommandons d'actualiser ou de modifier régulièrement vos informations d'identification et votre code secret. Fournissez uniquement le niveau d'accès nécessaire pour votre propre sécurité. Nous vous déconseillons de réutiliser les informations d'identification et les secrets entre les sources de données et les versions 1.0 et 2.0 du connecteur (le cas échéant).

Si vous n'avez pas de IAM rôle ou de secret existant, vous pouvez utiliser la console pour créer un nouveau IAM rôle et un nouveau Secrets Manager secret lorsque vous connectez votre source de données de base de données à Amazon Kendra. Si vous utilisez l'API, vous devez fournir l'ARN d'un IAM rôle et d'un Secrets Manager secret existants, ainsi qu'un identifiant d'index.

Instructions de connexion

Pour vous connecter Amazon Kendra à votre source de données de base de données, vous devez fournir les informations nécessaires sur votre source de données de base de données afin de Amazon Kendra pouvoir accéder à vos données. Si vous n'avez pas encore configuré la base de données pour Amazon Kendra, consultezPrérequis.

Console

Pour se connecter Amazon Kendra à une base de données

  1. Connectez-vous à la Amazon Kendra console AWS Management Console et ouvrez-la.

  2. Dans le volet de navigation de gauche, choisissez Index, puis choisissez l'index que vous souhaitez utiliser dans la liste des index.

    Note

    Vous pouvez choisir de configurer ou de modifier vos paramètres de contrôle d'accès utilisateur dans les paramètres de l'index.

  3. Sur la page de démarrage, choisissez Ajouter une source de données.

  4. Sur la page Ajouter une source de données, choisissez le connecteur de base de données, puis sélectionnez Ajouter un connecteur. Si vous utilisez la version 2 (le cas échéant), choisissez le connecteur de base de données avec la balise « V2.0 ».

  5. Sur la page Spécifier les détails de la source de données, entrez les informations suivantes :

    1. Dans Nom et description, pour Nom de la source de données : entrez le nom de votre source de données. Vous pouvez inclure des tirets, mais pas des espaces.

    2. (Facultatif) Description : entrez une description facultative pour votre source de données.

    3. Dans la langue par défaut : choisissez une langue pour filtrer vos documents pour l'index. Sauf indication contraire, la langue par défaut est l'anglais. La langue spécifiée dans les métadonnées du document remplace la langue sélectionnée.

    4. Dans Balises, pour Ajouter une nouvelle balise : incluez des balises facultatives pour rechercher et filtrer vos ressources ou suivre vos AWS coûts.

    5. Choisissez Suivant.

  6. Sur la page Définir l'accès et la sécurité, entrez les informations suivantes :

    1. Point de terminaison : nom d'hôte DNS, adresse IPv4 ou adresse IPv6.

    2. Port : numéro de port.

    3. Base de données : nom de la base de données.

    4. Nom de la table —Nom de la table.

    5. Pour Type d'authentification, choisissez entre Existant et Nouveau pour stocker les informations d'authentification de votre base de données. Si vous choisissez de créer un nouveau secret, une fenêtre AWS Secrets Manager secrète s'ouvre.

      1. Entrez les informations suivantes dans la fenêtre Créer un AWS Secrets Manager secret :

        1. Nom secret : le nom de votre secret. Le préfixe « AmazonKendra -database-» est automatiquement ajouté à votre nom secret.

        2. Pour le nom d'utilisateur et le mot de passe : entrez les valeurs d'authentification de votre compte de base de données.

        3. Choisissez Enregistrer l'authentification.

    6. Virtual Private Cloud (VPC) —Vous pouvez choisir d'utiliser un VPC. Dans ce cas, vous devez ajouter des sous-réseaux et des groupes de sécurité VPC.

      Note

      Vous devez utiliser un sous-réseau privé. Si votre instance RDS se trouve dans un sous-réseau public de votre VPC, vous pouvez créer un sous-réseau privé doté d'un accès sortant à une passerelle NAT dans le sous-réseau public. Les sous-réseaux fournis dans la configuration VPC doivent se trouver dans l'ouest des États-Unis (Oregon), dans l'est des États-Unis (Virginie du Nord) ou dans l'UE (Irlande).

    7. IAM rôle —Choisissez un IAM rôle existant ou créez-en un nouveau IAM pour accéder aux informations d'identification de votre référentiel et indexer le contenu.

      Note

      IAM les rôles utilisés pour les index ne peuvent pas être utilisés pour les sources de données. Si vous ne savez pas si un rôle existant est utilisé pour un index ou une FAQ, choisissez Créer un nouveau rôle pour éviter les erreurs.

    8. Choisissez Suivant.

  7. Sur la page Configurer les paramètres de synchronisation, entrez les informations suivantes :

    1. Choisissez entre Aurora MySQL, MySQL, Aurora PostgreSQL et PostgreSQL en fonction de votre cas d'utilisation.

    2. Placer les identificateurs SQL entre guillemets : sélectionnez cette option pour placer les identificateurs SQL entre guillemets doubles. Par exemple, « ColumnName ».

    3. Colonne ACL et colonnes de détection des modifications : configurez les colonnes Amazon Kendra utilisées pour la détection des modifications (par exemple, dernière colonne mise à jour) et votre liste de contrôle d'accès.

    4. Dans Synchroniser le calendrier d'exécution, pour Fréquence : choisissez la fréquence de synchronisation avec votre source de données. Amazon Kendra

    5. Choisissez Suivant.

  8. Sur la page Définir les mappages de champs, entrez les informations suivantes :

    1. Amazon Kendra mappages de champs par défaut : sélectionnez parmi les champs de source de données par défaut Amazon Kendra générés que vous souhaitez mapper à votre index. Vous devez ajouter les valeurs des colonnes de base de données pour document_id et document_body

    2. Mappages de champs personnalisés : pour ajouter des champs de source de données personnalisés afin de créer un nom de champ d'index à mapper et le type de données du champ.

    3. Choisissez Suivant.

  9. Sur la page Réviser et créer, vérifiez que les informations saisies sont correctes, puis sélectionnez Ajouter une source de données. Vous pouvez également choisir de modifier vos informations depuis cette page. Votre source de données apparaîtra sur la page Sources de données une fois que la source de données aura été ajoutée avec succès.

API

Pour se connecter Amazon Kendra à une base de données

Vous devez spécifier l'DatabaseConfigurationAPI suivante :

  • ColumnConfiguration—Informations sur l'endroit où l'index doit obtenir les informations du document à partir de la base de données. Pour en savoir plus, consultez ColumnConfiguration. Vous devez spécifier les champs DocumentDataColumnName (corps du document ou texte principal) et DocumentIdColumnName ChangeDetectingColumn (par exemple, dernière colonne mise à jour). La colonne mappée au DocumentIdColumnName champ doit être une colonne entière. L'exemple suivant montre une configuration de colonne simple pour une source de données de base de données :

    "ColumnConfiguration": { "ChangeDetectingColumns": [ "LastUpdateDate", "LastUpdateTime" ], "DocumentDataColumnName": "TextColumn", "DocumentIdColumnName": "IdentifierColumn", "DocoumentTitleColumnName": "TitleColumn", "FieldMappings": [ { "DataSourceFieldName": "AbstractColumn", "IndexFieldName": "Abstract" } ] }
  • ConnectionConfiguration: informations de configuration requises pour se connecter à une base de données. Pour en savoir plus, consultez ConnectionConfiguration.

  • DatabaseEngineType: type de moteur de base de données qui exécute la base de données. Le DatabaseHost champ pour ConnectionConfiguration doit être le point de terminaison de l'instance Amazon Relational Database Service (Amazon RDS) de la base de données. N'utilisez pas le point de terminaison du cluster.

  • Nom de ressource Amazon (ARN) secret : indiquez le nom de ressource Amazon (ARN) d'un Secrets Manager secret contenant les informations d'authentification de votre compte de base de données. Le secret est stocké dans une structure JSON avec les clés suivantes :

    { "username": "user name", "password": "password" }

    L'exemple suivant montre une configuration de base de données, y compris l'ARN secret.

    "DatabaseConfiguration": { "ConnectionConfiguration": { "DatabaseHost": "host.subdomain.domain.tld", "DatabaseName": "DocumentDatabase", "DatabasePort": 3306, "SecretArn": "arn:aws:secretmanager:region:account ID:secret/secret name", "TableName": "DocumentTable" } }
    Note

    Nous vous recommandons d'actualiser ou de modifier régulièrement vos informations d'identification et votre code secret. Fournissez uniquement le niveau d'accès nécessaire pour votre propre sécurité. Nous vous déconseillons de réutiliser les informations d'identification et les secrets entre les sources de données et les versions 1.0 et 2.0 du connecteur (le cas échéant).

  • IAM role —Spécifiez à quel RoleArn moment vous appelez CreateDataSource pour fournir à un IAM rôle les autorisations d'accéder à votre Secrets Manager secret et pour appeler les API publiques requises pour le connecteur de base de données et Amazon Kendra. Pour plus d'informations, consultez la section IAM Rôles des sources de données de base de données.

Vous pouvez également ajouter les fonctionnalités optionnelles suivantes :

  • Virtual Private Cloud (VPC) —Spécifiez dans le VpcConfiguration cadre de la configuration de la source de données. Consultez la section Configuration Amazon Kendra pour utiliser un VPC.

    Note

    Vous ne devez utiliser qu'un sous-réseau privé. Si votre instance RDS se trouve dans un sous-réseau public de votre VPC, vous pouvez créer un sous-réseau privé doté d'un accès sortant à une passerelle NAT dans le sous-réseau public. Les sous-réseaux fournis dans la configuration VPC doivent se trouver dans l'ouest des États-Unis (Oregon), dans l'est des États-Unis (Virginie du Nord) ou dans l'UE (Irlande).

  • Mappages de champs : choisissez de mapper les champs de votre source de données de base de données à vos champs d' Amazon Kendra index. Pour plus d'informations, veuillez consulter la rubrique Mappage des champs de source de données.

    Note

    Le champ du corps du document ou l'équivalent du corps du document pour vos documents est requis pour Amazon Kendra effectuer une recherche dans vos documents. Vous devez associer le nom du champ du corps du document dans votre source de données au nom du champ d'index_document_body. Tous les autres champs sont facultatifs.

  • Filtrage du contexte utilisateur et contrôle d'accèsAmazon Kendra  : analyse la liste de contrôle d'accès (ACL) de vos documents, si vous disposez d'une ACL pour vos documents. Les informations ACL sont utilisées pour filtrer les résultats de recherche en fonction de l'accès de l'utilisateur ou de son groupe aux documents. Pour plus d'informations, consultez la section Filtrage du contexte utilisateur.