Configurar el modo en que Amazon Kendra Web Crawler accede a su sitio web Impedir que Amazon Kendra Web Crawler rastree tu sitio web

Configuración del archivo `robots.txt` para el rastreador web de Amazon Kendra

Amazon Kendra es un servicio de búsqueda inteligente que AWS los clientes utilizan para indexar y buscar los documentos que elijan. Para indexar documentos en la web, los clientes pueden utilizar un rastreador Amazon Kendra web, que indica qué URL deben indexarse y otros parámetros operativos. Amazon Kendra los clientes deben obtener una autorización antes de indexar cualquier sitio web en particular.

Amazon Kendra Web Crawler respeta las directivas estándar de robots.txt, como Allow y. Disallow Puede modificar el robots.txt archivo de su sitio web para controlar la forma en que Amazon Kendra Web Crawler lo rastrea.

Configurar el modo en que Amazon Kendra Web Crawler accede a su sitio web

Puede controlar la forma en que el Amazon Kendra Web Crawler indexa su sitio web mediante directivas y directivas. Allow Disallow También puede controlar qué páginas web se indexan y qué páginas web no se rastrean.

Para permitir que Amazon Kendra Web Crawler rastree todas las páginas web excepto las no permitidas, utilice la siguiente directiva:


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Disallow: /credential-pages/ # disallow access to specific pages

Para permitir que Amazon Kendra Web Crawler rastree solo páginas web específicas, utilice la siguiente directiva:


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Allow: /pages/ # allow access to specific pages

Para permitir que Amazon Kendra Web Crawler rastree todo el contenido del sitio web e impedir que otros robots rastreen, utilice la siguiente directiva:


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

Impedir que Amazon Kendra Web Crawler rastree tu sitio web

Puede impedir que Amazon Kendra Web Crawler indexe su sitio web mediante esta directiva. Disallow También puede controlar qué páginas web se rastrean y cuáles no.

Para evitar que Amazon Kendra Web Crawler rastree el sitio web, utilice la siguiente directiva:


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Disallow: / # disallow access to any pages

Si tiene alguna pregunta o duda sobre Amazon Kendra Web Crawler, puede ponerse en contacto con el AWS equipo de soporte.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Amazon Kendra Conector Web Crawler v2.0

Box

Configuración del archivo robots.txt para el rastreador web de Amazon Kendra

Configurar el modo en que Amazon Kendra Web Crawler accede a su sitio web

Impedir que Amazon Kendra Web Crawler rastree tu sitio web

Configuración del archivo `robots.txt` para el rastreador web de Amazon Kendra