Création d'un connecteur de source de données - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un connecteur de source de données

Vous pouvez créer un connecteur de source de données pour vous connecter Amazon Kendra à vos documents et les indexer. Amazon Kendra peut se connecter à Microsoft SharePoint, Google Drive et à de nombreux autres fournisseurs. Lorsque vous créez un connecteur de source de données, vous fournissez Amazon Kendra les informations de configuration requises pour vous connecter à votre référentiel source. Contrairement à l'ajout de documents directement à un index, vous pouvez régulièrement scanner la source de données pour mettre à jour l'index.

Supposons, par exemple, que vous disposiez d'un référentiel de documents fiscaux stocké dans un Amazon S3 bucket. De temps à autre, des documents existants sont modifiés et de nouveaux documents sont ajoutés au référentiel. Si vous ajoutez le référentiel en Amazon Kendra tant que source de données, vous pouvez maintenir votre index à jour en configurant des synchronisations périodiques entre votre source de données et votre index.

Vous pouvez choisir de mettre à jour un index manuellement à l'aide de la console ou de l'StartDataSourceSyncJobAPI. Dans le cas contraire, vous définissez un calendrier pour mettre à jour un index et le synchroniser avec votre source de données.

Un index peut avoir plusieurs sources de données. Chaque source de données peut avoir son propre calendrier de mise à jour. Par exemple, vous pouvez mettre à jour l'index de vos documents de travail tous les jours, voire toutes les heures, tout en mettant à jour vos documents archivés manuellement chaque fois que l'archive change.

Si vous souhaitez modifier les métadonnées ou les attributs et le contenu de votre document pendant le processus d'ingestion du document, consultez la section Enrichissement Amazon Kendra personnalisé des documents.

Note

Chaque identifiant de document doit être unique par index. Vous ne pouvez pas créer de source de données pour indexer vos documents avec leurs identifiants uniques, puis utiliser l'BatchPutDocumentAPI pour indexer les mêmes documents, ou vice versa. Vous pouvez supprimer une source de données, puis utiliser l'BatchPutDocumentAPI pour indexer les mêmes documents, ou vice versa. L'utilisation des BatchDeleteDocument API BatchPutDocument et en combinaison avec un connecteur de source de Amazon Kendra données pour le même ensemble de documents peut entraîner des incohérences avec vos données. Nous vous recommandons plutôt d'utiliser le connecteur de source de données Amazon Kendra personnalisé.

Note

Les fichiers ajoutés à l'index doivent se trouver dans un flux d'octets codé en UTF-8. Pour plus d'informations sur les documents dans Amazon Kendra, consultez la section Documents.

Définition d'un calendrier de mise à jour

Configurez votre source de données pour qu'elle soit mise à jour régulièrement avec la console ou en utilisant le Schedule paramètre lorsque vous créez ou mettez à jour une source de données. Le contenu du paramètre est une chaîne contenant soit une chaîne de planification cron au format -format, soit une chaîne vide indiquant que l'index est mis à jour à la demande. Pour le format d'une expression cron, consultez la section Expressions de planification pour les règles dans le guide de l'Amazon CloudWatch Events utilisateur. Amazon Kendra ne prend en charge que les expressions cron. Il ne prend pas en charge les expressions de taux.

Configuration d'une langue

Vous pouvez indexer tous vos documents dans une source de données dans une langue prise en charge. Vous spécifiez le code de langue pour tous vos documents dans votre source de données lorsque vous appelez CreateDataSource. Si aucun code de langue n'est spécifié dans un champ de métadonnées, le document est indexé à l'aide du code de langue spécifié pour tous les documents au niveau de la source de données. Si vous ne spécifiez aucune langue, Amazon Kendra indexe les documents dans une source de données en anglais par défaut. Pour plus d'informations sur les langues prises en charge, y compris leurs codes, voir Ajout de documents dans des langues autres que l'anglais.

Vous indexez tous vos documents dans une source de données dans une langue prise en charge à l'aide de la console. Accédez à Sources de données et modifiez votre source de données ou à Ajouter une source de données si vous ajoutez une nouvelle source de données. Sur la page Spécifier les détails de la source de données, choisissez une langue dans la liste déroulante Langue. Vous sélectionnez Mettre à jour ou continuer à saisir les informations de configuration pour vous connecter à votre source de données.