Index - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Index

Un index contient le contenu de vos documents et est structuré de manière à rendre les documents consultables. La façon dont vous ajoutez des documents à l'index dépend de la manière dont vous les stockez.

  • Si vous stockez vos documents dans un référentiel, tel qu'un Amazon S3 bucket ou SharePoint site Microsoft, vous utilisez un connecteur de source de données pour indexer vos documents depuis votre référentiel.

  • Si vous ne stockez pas vos documents dans un référentiel, vous les utilisez BatchPutDocumentAPIpour les indexer directement.

  • Pour les FAQ questions et réponses, qui doivent être stockées dans un Amazon Kendra (Amazon S3), vous les téléchargez depuis le bucket

Vous pouvez créer des index à l'aide du Amazon Kendra console, la AWS CLI, ou un AWS SDK. Pour plus d'informations sur les types de documents pouvant être indexés, consultez la section Types de documents.

Utilisation Amazon Kendra champs de document réservés ou communs

Avec le UpdateIndex API, vous pouvez créer des champs réservés ou communs en utilisant DocumentMetadataConfigurationUpdates et en spécifiant le Amazon Kendra nom de champ d'index réservé à mapper à l'attribut/nom de champ de votre document équivalent. Vous pouvez également créer des champs personnalisés. Si vous utilisez un connecteur de source de données, la plupart incluent des mappages de champs qui mappent les champs de votre document de source de données à Amazon Kendra champs d'index. Si vous utilisez la console, vous mettez à jour les champs en sélectionnant votre source de données, en sélectionnant l'action de modification, puis en passant à côté de la section des mappages de champs pour configurer la source de données.

Vous pouvez configurer l'Searchobjet pour définir un champ comme affichable, facetable, consultable ou triable. Vous pouvez configurer l'Relevanceobjet pour définir l'ordre de classement d'un champ, la durée d'augmentation ou la période à appliquer aux valeurs de renforcement, de fraîcheur, de valeur d'importance et d'importance mappées à des valeurs de champ spécifiques. Si vous utilisez la console, vous pouvez définir les paramètres de recherche d'un champ en sélectionnant l'option à facettes dans le menu de navigation. Pour définir le réglage de la pertinence, sélectionnez l'option permettant de rechercher votre index dans le menu de navigation, entrez une requête et utilisez les options du panneau latéral pour ajuster la pertinence de la recherche. Vous ne pouvez pas modifier le type de champ une fois que vous l'avez créé.

Amazon Kendra possède les champs de document réservés ou communs suivants que vous pouvez utiliser :

  • _authors—Une liste d'un ou de plusieurs auteurs responsables du contenu du document.

  • _category: catégorie qui place un document dans un groupe spécifique.

  • _created_at: date et heure au format ISO 8601 auxquelles le document a été créé. Par exemple, 2012-03-25T 12:30:10 + 01:00 est le format date-heure ISO 8601 pour le 25 mars 2012 à 12h30 (plus 10 secondes) en heure d'Europe centrale.

  • _data_source_id: identifiant de la source de données qui contient le document.

  • _document_body: le contenu du document.

  • _document_id—Un identifiant unique pour le document.

  • _document_title: le titre du document.

  • _excerpt_page_number: le numéro de page d'un PDF fichier où apparaît l'extrait du document. Si votre index a été créé avant le 8 septembre 2020, vous devez réindexer vos documents avant de pouvoir utiliser cet attribut.

  • _faq_id—S'il s'agit d'un document de type question-réponse (FAQ), un identifiant unique pour le. FAQ

  • _file_type: le type de fichier du document, tel que pdf ou doc.

  • _last_updated_at: date et heure au format ISO 8601 auxquelles le document a été mis à jour pour la dernière fois. Par exemple, 2012-03-25T 12:30:10 + 01:00 est le format date-heure ISO 8601 pour le 25 mars 2012 à 12h30 (plus 10 secondes) en heure d'Europe centrale.

  • _source_uriURI—L'endroit où le document est disponible. Par exemple, celui URI du document sur le site Web d'une entreprise.

  • _version—Identifiant pour la version spécifique d'un document.

  • _view_count: le nombre de fois que le document a été consulté.

  • _language_code(String) : code d'une langue qui s'applique au document. La valeur par défaut est l'anglais si vous ne spécifiez aucune langue. Pour plus d'informations sur les langues prises en charge, y compris leurs codes, voir Ajout de documents dans des langues autres que l'anglais.

Pour les champs personnalisés, vous pouvez créer ces champs à l'DocumentMetadataConfigurationUpdatesaide du UpdateIndexAPI, comme vous le faites lorsque vous créez un champ réservé ou commun. Vous devez définir le type de données approprié pour votre champ personnalisé. Si vous utilisez la console, vous mettez à jour les champs en sélectionnant votre source de données, en sélectionnant l'action de modification, puis en passant à côté de la section des mappages de champs pour configurer la source de données. Certaines sources de données ne prennent pas en charge l'ajout de nouveaux champs ou de champs personnalisés. Vous ne pouvez pas modifier le type de champ une fois que vous l'avez créé.

Les types que vous pouvez définir pour les champs personnalisés sont les suivants :

  • Date

  • Nombre

  • Chaîne

  • Liste de chaînes

Si vous avez ajouté des documents à l'index en utilisant BatchPutDocumentAPI, Attributes répertorie les champs/attributs de vos documents et vous créez des champs à l'aide de l'DocumentAttributeobjet.

Pour les documents indexés à partir d'un Amazon S3 source de données, vous créez des champs à l'aide d'un fichier de JSON métadonnées qui inclut les informations des champs.

Si vous utilisez une base de données prise en charge comme source de données, vous pouvez configurer vos champs à l'aide de l'option de mappage de champs.

Recherche dans les index

Après avoir créé un index, vous pouvez commencer à rechercher vos documents. Pour plus d'informations, consultez la section Recherche dans les index.