Configuración del archivo robots.txt para el rastreador web de Amazon Kendra - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración del archivo robots.txt para el rastreador web de Amazon Kendra

Amazon Kendra es un servicio de búsqueda inteligente que AWS los clientes utilizan para indexar y buscar los documentos que elijan. Para indexar documentos en la web, los clientes pueden utilizar un rastreador Amazon Kendra web, que indica qué URL deben indexarse y otros parámetros operativos. Amazon Kendra los clientes deben obtener una autorización antes de indexar cualquier sitio web en particular.

Amazon Kendra Web Crawler respeta las directivas estándar de robots.txt, como Allow y. Disallow Puede modificar el robots.txt archivo de su sitio web para controlar la forma en que Amazon Kendra Web Crawler lo rastrea.

Configurar el modo en que Amazon Kendra Web Crawler accede a su sitio web

Puede controlar la forma en que el Amazon Kendra Web Crawler indexa su sitio web mediante directivas y directivas. Allow Disallow También puede controlar qué páginas web se indexan y qué páginas web no se rastrean.

Para permitir que Amazon Kendra Web Crawler rastree todas las páginas web excepto las no permitidas, utilice la siguiente directiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages

Para permitir que Amazon Kendra Web Crawler rastree solo páginas web específicas, utilice la siguiente directiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages

Para permitir que Amazon Kendra Web Crawler rastree todo el contenido del sitio web e impedir que otros robots rastreen, utilice la siguiente directiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Impedir que Amazon Kendra Web Crawler rastree tu sitio web

Puede impedir que Amazon Kendra Web Crawler indexe su sitio web mediante esta directiva. Disallow También puede controlar qué páginas web se rastrean y cuáles no.

Para evitar que Amazon Kendra Web Crawler rastree el sitio web, utilice la siguiente directiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages

Amazon Kendra Web Crawler también admite los robots noindex y nofollow las directivas de las metaetiquetas de las páginas HTML. Estas directivas impiden que el rastreador web indexe una página web y deje de seguir los enlaces de la página web. Las metaetiquetas se colocan en la sección del documento para especificar las reglas de los robots.

Por ejemplo, la siguiente página web incluye las directivas robots noindex y nofollow:

<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>

Si tiene alguna pregunta o duda sobre Amazon Kendra Web Crawler, puede ponerse en contacto con el equipo de AWS soporte.