Dépannage des sources de données - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Dépannage des sources de données

Cette section peut vous aider à résoudre les problèmes courants liés à la configuration et à l'utilisation Amazon Kendra des connecteurs de source de données.

Mes documents n'ont pas été indexés

Lorsque vous synchronisez votre Amazon Kendra index avec une source de données, vous pouvez rencontrer des problèmes empêchant l'indexation des documents. L'indexation est un processus en deux étapes. Tout d'abord, la source de données est vérifiée pour détecter les documents nouveaux et mis à jour à indexer, et pour trouver les documents à supprimer de l'index. Ensuite, au niveau du document, chaque document est consulté et indexé.

Une erreur peut se produire lors de l'une ou l'autre de ces étapes. Les erreurs au niveau de la source de données sont signalées dans la console dans la section Historique des exécutions de synchronisation de la page de détails de la source de données. Le statut de la tâche de synchronisation peut être Réussi, Incomplet ou Échoué. Vous pouvez également voir le nombre de documents indexés et supprimés au cours de la tâche. Si le statut est Échoué, un message s'affiche dans la colonne Détails.

Les erreurs au niveau du document sont signalées dans Amazon CloudWatch Logs. Vous pouvez voir les erreurs à l'aide de la CloudWatch console.

Pour générer un rapport d'état de synchronisation de documents, voir Je souhaite générer un rapport d'état de synchronisation pour mes documents.

Ma tâche de synchronisation a échoué

Une tâche de synchronisation échoue généralement en cas d'erreur de configuration dans l'index ou dans la source de données. Dans la console, vous pouvez trouver le message d'erreur dans la section Historique des exécutions de la page de détails de la source de données, sous la colonne Détails. Les erreurs au niveau du document sont signalées dans Amazon CloudWatch Logs. Le message d'erreur fournit des informations sur ce qui s'est mal passé. Le problème est généralement que l'index ou la source de données ne disposent pas des IAM autorisations appropriées. Le message d'erreur décrit les autorisations manquantes. Voici certains des messages d'erreur que vous pouvez recevoir :

Failed to create log group for job. Please make sure that the IAM role provided has sufficient permissions.

Si votre rôle d'index n'est pas autorisé à être utilisé CloudWatch, la source de données ne pourra pas créer de CloudWatch journal. Si cette erreur s'affiche, vous devez ajouter CloudWatch des autorisations au rôle d'index.

Failed to access Amazon S3 file prefix (bucket name) while trying to crawl your metadata files. Please make sure the IAM role (ARN) provided has sufficient permissions.

Lorsque vous utilisez une source de Amazon S3 données, vous Amazon Kendra devez être autorisé à accéder au compartiment contenant les documents. Vous devez ajouter l'autorisation Amazon Kendra de lire le bucket au IAM rôle de source de données.

The provided IAM role (ARN) could not be assumed. Please make sure Amazon Kendra is a trusted entity that is allowed to assume the role.

Amazon Kendra a besoin d'une autorisation pour assumer les IAM rôles d'index et de source de données. Vous devez ajouter une politique de confiance aux rôles autorisant l'sts:AssumeRoleaction.

Pour les IAM politiques qui Amazon Kendra doivent indexer une source de données, consultez la section IAM rôles.

Pour générer un rapport d'état de synchronisation de documents, voir Je souhaite générer un rapport d'état de synchronisation pour mes documents.

Ma tâche de synchronisation est incomplète

Les tâches sont généralement incomplètes lorsqu'elles ont terminé le processus au niveau de la source de données, mais qu'elles comportent des erreurs au cours du processus au niveau du document. Lorsqu'une tâche est incomplète, il est possible que certains documents n'aient pas été correctement indexés. Dans le cas d'une source de Amazon S3 données, une tâche incomplète est généralement due à :

  • Les métadonnées d'un ou de plusieurs documents n'étaient pas valides.

  • Lorsque des documents sont soumis pour indexation mais qu'au moins un document n'a pas été soumis.

  • Lorsque des documents sont soumis pour être supprimés de l'index mais qu'au moins un document n'a pas été soumis.

Pour résoudre le problème d'une tâche de synchronisation incomplète, examinez d'abord vos CloudWatch journaux.

  1. Dans la colonne des détails, choisissez Afficher les détails dans CloudWatch.

  2. Consultez les messages d'erreur pour déterminer la cause de l'échec du document.

Pour générer un rapport d'état de synchronisation de documents, voir Je souhaite générer un rapport d'état de synchronisation pour mes documents.

Ma tâche de synchronisation a réussi mais il n'y a aucun document indexé

Parfois, une tâche de synchronisation d'index exécutée est marquée comme réussie, mais aucun document nouveau ou mis à jour n'est indexé comme prévu. Les raisons possibles sont les suivantes :

  • Vérifiez la CloudWatch DocumentsSubmittedForIndexingFailed métrique pour voir si des documents n'ont pas pu être synchronisés. Consultez vos CloudWatch journaux pour plus de détails.

  • Pour une source de Amazon S3 données, vous avez peut-être donné Amazon Kendra le mauvais nom de compartiment ou le mauvais préfixe. Assurez-vous que le bucket utilisé Amazon Kendra est celui qui contient les documents à indexer.

  • Lorsque vous réindexez un document qui n'a pas pu être indexé dans une tâche précédente, vous Amazon Kendra ne l'indexez que si vous avez modifié le document ou le fichier de métadonnées associé.

Pour générer un rapport d'état de synchronisation de documents, voir Je souhaite générer un rapport d'état de synchronisation pour mes documents.

Je rencontre des problèmes de format de fichier lors de la synchronisation de ma source de données

Si vous rencontrez des problèmes de format de fichier lors de l'ajout de fichiers à votre source de données ou lors de la synchronisation de votre source de données, assurez-vous que vos types de documents sont Amazon Kendra pris en charge. Pour une liste des types de documents pris en charge par la Amazon Kendra section Types ou formats de documents.

Si vous utilisez l'BatchPutDocumentAPI avec des fichiers texte brut, spécifiez-le PLAIN_TEXT comme type de contenu.

Je souhaite générer un rapport d'historique de synchronisation pour mes documents

Lorsque vous synchronisez votre connecteur de source de Amazon Kendra données, vous Amazon Kendra pouvez générer des rapports d'état de synchronisation pour chaque document de votre source de données et le copier dans un Amazon S3 compartiment. Au cours de ce processus, vos données sont cryptées à l'aide de AWS KMS clés et vous seul pouvez les consulter. Le statut du document signalé peut être l'un des suivants : Echec, Terminé ou Réussite avec des erreurs.

Avant de pouvoir générer des rapports d'état de synchronisation, vous devez effectuer les opérations suivantes :

  • Ajoutez le principal Amazon Kendra de service suivant à votre politique Amazon S3 d'accès

    { “Version”: “2012-10-17", “Statement”: [ { “Sid”: “KendraS3Access”, “Effect”: “Allow”, “Principal”: { “Service”: “kendra.amazonaws.com” }, “Action”: “s3:PutObject”, “Resource”: “arn:aws:s3:::your-manifest-bucket-name/*” } ] }
  • Créez un Amazon S3 bucket avec des autorisations d'accès pour Amazon Kendra

Si vous utilisez la console, pour générer un rapport d'état de synchronisation, choisissez d'activer l'option de génération de l'historique de synchronisation sur la page des détails de la source de données. Entrez ensuite l'emplacement du Amazon S3 compartiment et choisissez parmi les options de configuration disponibles. Les rapports seront générés lors de la prochaine synchronisation une fois que vous aurez activé l'option Générer un rapport.

Si vous supprimez le Amazon S3 compartiment, vous perdrez vos données de journal et devrez en configurer un nouveau pour stocker les nouveaux rapports de synchronisation.

La génération de l'état des rapports de synchronisation n'est actuellement prise en charge que pour le Amazon S3 connecteur.

Combien de temps prend la synchronisation d'une source de données ?

Si aucun document n'est mis à jour, le temps de synchronisation d'un Amazon Kendra index augmente de façon linéaire en fonction du nombre de documents. Par exemple, la synchronisation de 1 000 documents sans mise à jour prendrait environ cinq minutes et celle de 2 000 documents sans mise à jour prendrait environ 10 minutes. En cas de mise à jour des documents, le temps de synchronisation augmentera en fonction du nombre de documents mis à jour.

Quels sont les frais de synchronisation d'une source de données ?

Lorsque vous synchronisez votre index, il faut deux minutes pour le réchauffer et l'activer Amazon EC2 afin d'établir les connexions nécessaires. Vous n'êtes pas débité pendant ce processus. Votre compteur d'utilisation ne démarre qu'après le début de la tâche de synchronisation. Pour plus d'informations sur les Amazon Kendra tarifs, consultez la section Amazon Kendra tarification.

Je reçois une erreur Amazon EC2 d'autorisation

Si une erreur de fonctionnement Amazon EC2 non autorisée se produit lors de la synchronisation d'une source de données de cloud privé virtuel (VPC), il est probable que votre IAM rôle VPC ne dispose pas des autorisations requises. Vérifiez que le IAM rôle que vous utilisez pour votre source de données dispose des autorisations associées. Pour plus d'informations, consultez la section IAM Rôle de cloud privé virtuel.

Votre Amazon Kendra index ne peut accéder qu'aux fichiers autorisés par une source de Amazon S3 données. Par exemple, Amazon Kendra impossible de modifier les Amazon S3 autorisations qui déterminent si un objet est censé être public ou chiffré. Amazon Kendra ne dispose pas non plus des autorisations par défaut pour créer ou renvoyer un lien signé pour Amazon S3 des objets. Si vous souhaitez activer les liens signés pour les Amazon S3 objets d'un Amazon Kendra index, deux options s'offrent à vous :

  • Vous pouvez signer les résultats de votre requête d'index avec l'objet uri source avant de renvoyer le résultat sur la page de recherche. Pour une step-by-step présentation détaillée de ce processus, voir Partage d'objets à l'aide d'URL présignées.

  • Vous pouvez remplacer l'URI de la source des métadonnées de l' Amazon S3 objet et rendre votre service disponible via un réseau de diffusion de CloudFront contenu (CDN) connecté à un Amazon S3 bucket. Vous pouvez également utiliser un point de terminaison API Gateway proxy qui renvoie une URL présignée et redirige vers celle-ci.

Je reçois un message d'erreur AccessDenied lors de l'utilisation d'un fichier de certificat SSL

Si vous recevez un message d'erreur de refus d'accès lorsque vous utilisez un certificat SSL avec votre source de données, assurez-vous que votre IAM rôle est autorisé à accéder au fichier du certificat SSL à l'emplacement indiqué. Si le certificat est chiffré à l'aide d'une AWS KMS clé, votre IAM rôle doit également être autorisé à le déchiffrer à l'aide de cette AWS KMS clé. Pour plus d'informations, consultez Authentification et contrôle d'accès pour AWS KMS.

Je reçois une erreur d'autorisation lors de l'utilisation d'une source SharePoint de données

Si vous recevez une erreur d'autorisation lors de la synchronisation de votre index avec une source de SharePoint données, vérifiez qu'un rôle d'administrateur de site vous est attribué dans SharePoint.

Mon index n'explore pas les documents de ma source de données Confluence

Si votre Amazon Kendra index n'explore pas les documents de votre source de données Confluence pendant le processus de synchronisation, vérifiez que vous faites partie des groupes d'administrateurs de Confluence.