Cartographie des champs de source de données - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Cartographie des champs de source de données

Amazon Kendra les connecteurs de source de données peuvent mapper les champs de document ou de contenu de votre source de données aux champs de votre Amazon Kendra index. Par défaut, chaque connecteur est conçu pour analyser des champs de source de données spécifiques. Les champs de source de données par défaut et leurs propriétés ne peuvent pas être modifiés ou personnalisés. Sur la Amazon Kendra console, les champs par défaut et les propriétés des champs par défaut qui ne peuvent pas être modifiés sont grisés.

Amazon Kendra les connecteurs vous permettent également de mapper des champs de document ou de contenu personnalisés de votre source de données aux champs personnalisés de votre index. Par exemple, si votre source de données contient un champ appelé « département » qui contient les informations relatives au service d'un document, vous pouvez le mapper à un champ d'index appelé « Département ». Ainsi, vous pouvez utiliser le champ lorsque vous interrogez des documents.

Vous pouvez également mapper des champs Amazon Kendra réservés ou communs tels que_created_at. Si votre source de données possède un champ appelé « creation_date », vous pouvez le mapper au champ Amazon Kendra réservé équivalent appelé. _created_at Pour plus d'informations sur les champs Amazon Kendra réservés, consultez la section Attributs ou champs du document.

Vous pouvez mapper les champs de la plupart des sources de données. Vous pouvez créer des mappages de champs pour les sources de données suivantes :

  • Gestionnaire d'expérience Adobe

  • En plein air

  • Aurora (MySQL)

  • Aurora (PostgreSQL)

  • Amazon FSx (Fenêtres)

  • Amazon FSx (NetApp ONTAP)

  • Amazon RDS/Aurora

  • Amazon RDS (Microsoft SQL Server)

  • Amazon RDS (MySQL)

  • Amazon RDS (Oracle)

  • Amazon RDS (PostgreSQL)

  • Amazon Kendra Explorateur Web

  • Amazon WorkDocs

  • Box (Cube)

  • Confluence

  • Dropbox

  • Drupal

  • GitHub

  • Disques durs Google Workspace

  • Gmail

  • IBM DB2

  • Jira

  • Microsoft Exchange

  • Microsoft OneDrive

  • Microsoft SharePoint

  • Microsoft Teams

  • Microsoft SQL Server

  • Microsoft Yammer

  • MySQL

  • Oracle Database

  • PostgreSQL

  • Quip

  • Salesforce

  • ServiceNow

  • Slack

  • Zendesk

Si vous stockez vos documents dans un compartiment S3 ou une source de données S3, vous spécifiez vos champs à l'aide d'un fichier de métadonnées JSON. Pour plus d'informations, consultez la section Connecteur de source de données S3.

Le mappage des champs de votre source de données vers un champ d'index s'effectue en trois étapes :

  1. Créez un index. Pour plus d'informations, consultez la section Création d'un index.

  2. Mettez à jour l'index pour ajouter des champs.

  3. Créez une source de données et incluez des mappages de champs pour mapper les champs réservés et tous les champs personnalisés pour Amazon Kendra indexer les champs.

Pour mettre à jour l'index afin d'ajouter des champs personnalisés, utilisez la console pour modifier les mappages de champs de la source de données et ajouter un champ personnalisé ou utilisez l'UpdateIndexAPI. Vous pouvez ajouter un total de 500 champs personnalisés à votre index.

Pour les sources de données de base de données, si le nom de la colonne de base de données correspond au nom d'un champ réservé, le champ et la colonne sont automatiquement mappés.

Avec l'UpdateIndexAPI, vous pouvez ajouter des champs réservés et personnalisés à l'aide deDocumentMetadataConfigurationUpdates.

L'exemple JSON suivant permet DocumentMetadataConfigurationUpdates d'ajouter un champ appelé « Department » à l'index.

"DocumentmetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE" } ]

Lorsque vous créez le champ, vous avez la possibilité de définir la manière dont le champ est utilisé pour la recherche. Sélectionnez parmi les éléments suivants :

  • Affichable —Détermine si le champ est renvoyé dans la réponse à la requête. L’argument par défaut est true.

  • Facetable —Indique que le champ peut être utilisé pour créer des facettes. L’argument par défaut est false.

  • Consultable —Détermine si le champ est utilisé dans la recherche. La valeur par défaut est true pour les champs de chaîne et false pour les champs de nombre et de date.

  • Triable —Indique que le champ peut être utilisé pour trier la réponse d'une requête. Ne peut être défini que pour les champs de date, de numéro et de chaîne. Impossible de définir les champs de liste de chaînes.

L'exemple JSON suivant permet DocumentMetadataConfigurationUpdates d'ajouter un champ appelé « Department » à l'index et de le marquer comme facetable.

"DocumentMetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE", "Search": { "Facetable": true } } ]

Utilisation de champs de document Amazon Kendra réservés ou communs

Avec l'UpdateIndex API, vous pouvez créer des champs réservés ou communs en utilisant DocumentMetadataConfigurationUpdates et en spécifiant le nom du champ d'index Amazon Kendra réservé à mapper à l'attribut/nom de champ de votre document équivalent. Vous pouvez également créer des champs personnalisés. Si vous utilisez un connecteur de source de données, la plupart incluent des mappages de champs qui font correspondre les champs de votre document de source de données aux champs d' Amazon Kendra index. Si vous utilisez la console, vous mettez à jour les champs en sélectionnant votre source de données, en sélectionnant l'action de modification, puis en passant à côté de la section des mappages de champs pour configurer la source de données.

Vous pouvez configurer l'Searchobjet pour définir un champ comme affichable, facetable, consultable ou triable. Vous pouvez configurer l'Relevanceobjet pour définir l'ordre de classement d'un champ, la durée d'augmentation ou la période à appliquer aux valeurs de renforcement, de fraîcheur, de valeur d'importance et d'importance mappées à des valeurs de champ spécifiques. Si vous utilisez la console, vous pouvez définir les paramètres de recherche d'un champ en sélectionnant l'option à facettes dans le menu de navigation. Pour définir le réglage de la pertinence, sélectionnez l'option permettant de rechercher votre index dans le menu de navigation, entrez une requête et utilisez les options du panneau latéral pour ajuster la pertinence de la recherche. Vous ne pouvez pas modifier le type de champ une fois que vous l'avez créé.

Amazon Kendra possède les champs de document réservés ou communs suivants que vous pouvez utiliser :

  • _authors—Une liste d'un ou de plusieurs auteurs responsables du contenu du document.

  • _category: catégorie qui place un document dans un groupe spécifique.

  • _created_at: date et heure au format ISO 8601 auxquelles le document a été créé. Par exemple, 2012-03-25T12:30:10+01:00 est le format de date et d'heure ISO 8601 pour le 25 mars 2012 à 12 h 30 (plus 10 secondes) à l'heure d'Europe centrale.

  • _data_source_id: l'identifiant de la source de données qui contient le document.

  • _document_body: le contenu du document.

  • _document_id—Un identifiant unique pour le document.

  • _document_title: le titre du document.

  • _excerpt_page_number: le numéro de page d'un fichier PDF où apparaît l'extrait du document. Si votre index a été créé avant le 8 septembre 2020, vous devez réindexer vos documents avant de pouvoir utiliser cet attribut.

  • _faq_id—S'il s'agit d'un document de type question-réponse (FAQ), un identifiant unique pour la FAQ.

  • _file_type: le type de fichier du document, tel que pdf ou doc.

  • _last_updated_at: date et heure au format ISO 8601 auxquelles le document a été mis à jour pour la dernière fois. Par exemple, 2012-03-25T12:30:10+01:00 est le format de date et d'heure ISO 8601 pour le 25 mars 2012 à 12 h 30 (plus 10 secondes) à l'heure d'Europe centrale.

  • _source_uri: l'URI où le document est disponible. Par exemple, l'URI du document sur le site Web d'une entreprise.

  • _version—Identifiant pour la version spécifique d'un document.

  • _view_count: le nombre de fois que le document a été consulté.

  • _language_code(String) : code d'une langue qui s'applique au document. La valeur par défaut est l'anglais si vous ne spécifiez aucune langue. Pour plus d'informations sur les langues prises en charge, y compris leurs codes, voir Ajout de documents dans des langues autres que l'anglais.

Pour les champs personnalisés, vous pouvez les créer à l'DocumentMetadataConfigurationUpdatesaide de l'UpdateIndexAPI, comme vous le faites lorsque vous créez un champ réservé ou commun. Vous devez définir le type de données approprié pour votre champ personnalisé. Si vous utilisez la console, vous mettez à jour les champs en sélectionnant votre source de données, en sélectionnant l'action de modification, puis en passant à côté de la section des mappages de champs pour configurer la source de données. Certaines sources de données ne prennent pas en charge l'ajout de nouveaux champs ou de champs personnalisés. Vous ne pouvez pas modifier le type de champ une fois que vous l'avez créé.

Les types que vous pouvez définir pour les champs personnalisés sont les suivants :

  • Date

  • Nombre

  • Chaîne

  • Liste de chaînes

Si vous avez ajouté des documents à l'index à l'aide de l'BatchPutDocumentAPI, Attributes répertorie les champs/attributs de vos documents et vous créez des champs à l'aide de l'DocumentAttributeobjet.

Pour les documents indexés à partir d'une source de Amazon S3 données, vous créez des champs à l'aide d'un fichier de métadonnées JSON qui inclut les informations des champs.

Si vous utilisez une base de données prise en charge comme source de données, vous pouvez configurer vos champs à l'aide de l'option de mappage de champs.