Stopping (Deteniéndose)Amazon KendraWeb Crawler para que indexe su sitio web - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Stopping (Deteniéndose)Amazon KendraWeb Crawler para que indexe su sitio web

Amazon Kendraes un servicio de búsqueda inteligente queAWSlos clientes utilizan para indexar y buscar documentos de su elección. Para indexar documentos en la web, los clientes pueden usarAmazon KendraWeb Crawler, que indica qué URL (s) deben indexarse y otros parámetros operativos.Amazon Kendralos clientes deben obtener autorización antes de indexar cualquier sitio web en particular.

Puede detener elAmazon KendraWeb Crawler para que no indexe su sitio web mediante elDisallow, tal y como se muestra a continuación. También puede controlar qué páginas web se indexan y qué páginas web no se rastrean.

Amazon KendraWeb Crawler respeta las directivas estándar de robots.txt comoAllowyDisallow. CadaAmazon Kendrael cliente que usa el rastreador web tiene un agente de usuario o ID de cliente único. Puede identificar el ID de agente de usuario o cliente que desea controlar y configurar en las directivas robots.txt.

Por ejemplo, las siguientes directivas detienen unaAmazon Kendraque el cliente pueda indexar un directorio de sus páginas web en/do-not-crawl/, pero permitir la indexación de un subdirectorio/do-not-crawl/except-this/:

User-agent: amazon-kendra-customer-id-[id] # Amazon customer's user agent/ID Disallow: /do-not-crawl/ # disallow this directory Allow: /do-not-crawl/except-this/ # allow this subdirectory User-agent: * # any robot Disallow: /not-allowed/ # disallow this directory User-agent: amazon-kendra-web-crawler-* # all customers of Amazon Kendra Web Crawler Disallow: /confidential/ # disallow this directory

Amazon KendraWeb Crawler también es compatible con los robotsnoindexynofollowdirectivas en metaetiquetas en páginas HTML. Estas directivas impiden que el rastreador web indexe una página web y deja de seguir los enlaces de la página web. Coloca las metaetiquetas en la sección del documento para especificar las reglas de las reglas de los robots.

Por ejemplo, la siguiente página web incluye las directivas robotsnoindexynofollow:

<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>

Si tiene alguna pregunta o alguna duda acerca deAmazon KendraWeb Crawler, puede comunicarse con elAWSequipo de soporte.