Configuration du robots.txt fichier pour Amazon Kendra Web Crawler - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration du robots.txt fichier pour Amazon Kendra Web Crawler

Amazon Kendra est un service de recherche intelligent que AWS les clients utilisent pour indexer et rechercher les documents de leur choix. Afin d'indexer des documents sur le Web, les clients peuvent utiliser le Amazon Kendra Web Crawler, qui indique les URL à indexer ainsi que d'autres paramètres opérationnels. Amazon Kendra les clients sont tenus d'obtenir une autorisation avant d'indexer un site Web en particulier.

Amazon Kendra Web Crawler respecte les directives standard de robots.txt telles que Allow etDisallow. Vous pouvez modifier le robots.txt fichier de votre site Web pour contrôler la façon dont Amazon Kendra Web Crawler explore votre site Web.

Configuration de la façon dont Amazon Kendra Web Crawler accède à votre site Web

Vous pouvez contrôler la façon dont le Amazon Kendra Web Crawler indexe votre site Web à l'aide de directives Allow etDisallow. Vous pouvez également contrôler quelles pages Web sont indexées et quelles pages Web ne sont pas explorées.

Pour autoriser Amazon Kendra Web Crawler à explorer toutes les pages Web à l'exception des pages Web interdites, utilisez la directive suivante :

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages

Pour autoriser Amazon Kendra Web Crawler à explorer uniquement des pages Web spécifiques, utilisez la directive suivante :

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages

Pour autoriser Amazon Kendra Web Crawler à explorer tout le contenu du site Web et interdire l'exploration à tout autre robot, utilisez la directive suivante :

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Amazon Kendra Empêcher Web Crawler d'explorer votre site Web

Vous pouvez empêcher Amazon Kendra Web Crawler d'indexer votre site Web à l'aide de cette directive. Disallow Vous pouvez également contrôler les pages Web qui sont explorées et celles qui ne le sont pas.

Pour empêcher Amazon Kendra Web Crawler d'explorer le site Web, utilisez la directive suivante :

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages

Amazon Kendra Web Crawler prend également en charge les robots noindex et les nofollow directives contenus dans les balises méta des pages HTML. Ces directives empêchent le robot d'indexation d'indexer une page Web et de ne plus suivre les liens présents sur la page Web. Vous placez les balises méta dans la section du document pour spécifier les règles des robots.

Par exemple, la page Web ci-dessous inclut les directives robots noindex et nofollow :

<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>

Si vous avez des questions ou des préoccupations concernant Amazon Kendra Web Crawler, vous pouvez contacter l'équipe d'AWS assistance.