WebCrawlerConfiguration - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

WebCrawlerConfiguration

Proporciona la información de configuración necesaria para Amazon Kendra Web Crawler.

Contenido

AuthenticationConfiguration

La información de configuración es obligatorio para conectarse con sitios web mediante la autenticación.

Puede conectarse a sitios web mediante la autenticación básica del nombre de usuario y la contraseña. Usas un secreto enAWS Secrets Managerpara almacenar las credenciales de autenticación.

Debe proporcionar el nombre de host y el número de puerto del sitio web. Por ejemplo, el nombre de host de https://a.example.com/page1.html es «a.example.com» y el puerto es 443, el puerto estándar para HTTPS.

Tipo: objeto AuthenticationConfiguration

obligatorio: obligatorio: No

CrawlDepth

Especifica el número de niveles de un sitio web que desea rastrear.

El primer nivel comienza a partir de la URL inicial o del punto de partida del sitio web. Por ejemplo, si un sitio web tiene 3 niveles: nivel de índice (es decir, semilla en este ejemplo), nivel de secciones y nivel de subsecciones, y solo le interesa rastrear la información hasta el nivel de secciones (es decir, los niveles 0-1), puede establecer la profundidad en 1.

La profundidad de rastreo predeterminada se establece en 2.

Type: Entero

El rango válido: Valor mínimo de 0. Valor máximo de 10.

obligatorio: obligatorio: No

MaxContentSizePerPageInMegaBytes

El tamaño máximo (en MB) de una página web o un archivo adjunto que se debe rastrear.

Los archivos más grandes que este tamaño (en MB) se omiten o no se rastrean.

El tamaño máximo predeterminado de una página web o un archivo adjunto se establece en 50 MB.

Type: Float

El rango válido: Valor mínimo de 1.0e-06. Valor máximo de 50.

obligatorio: obligatorio: No

MaxLinksPerPage

El número máximo de URL de una página web que se deben incluir al rastrear un sitio web. Este número es por página web.

A medida que se rastrean las páginas web de un sitio web, también se rastrean las URL a las que enlazan las páginas web. Las URL de una página web se rastrean en orden de aparición.

El número máximo predeterminado de enlaces por página es de 100.

Type: Entero

El rango válido: Valor mínimo de 1. Valor máximo de 1000.

obligatorio: obligatorio: No

MaxUrlsPerMinuteCrawlRate

El número máximo de URL rastreadas por host de sitio web y por minuto.

Se necesita un URL como mínimo.

El número máximo predeterminado de URL rastreadas por host de sitio web por minuto es de 300.

Type: Entero

El rango válido: Valor mínimo de 1. Valor máximo de 300.

obligatorio: obligatorio: No

ProxyConfiguration

Información de configuración necesaria para conectarse a sus sitios web internos a través de un proxy web.

Debe proporcionar el nombre de host y el número de puerto del sitio web. Por ejemplo, el nombre de host de https://a.example.com/page1.html es «a.example.com» y el puerto es 443, el puerto estándar para HTTPS.

Las credenciales de proxy web son opcionales y puede usarlas para conectarse a un servidor proxy web que requiera autenticación básica. Para almacenar las credenciales del proxy web, debe usar un secreto enAWS Secrets Manager.

Tipo: objeto ProxyConfiguration

obligatorio: obligatorio: No

UrlExclusionPatterns

Una lista de patrones de expresión regular para excluir el rastreo de ciertas URL. Las URL que coinciden con los patrones se excluyen del índice. Las URL que no coinciden con los patrones se incluyen en el índice. Si una URL coincide con un patrón de inclusión y un patrón de exclusión, el patrón de exclusión tiene prioridad y el archivo de URL no se incluye en el índice.

Type: Matriz de cadenas

Miembros de la matriz: El número mínimo es 0 elementos. Número máximo de 100 elementos.

Restligligatorio: Longitud mínima de 1. La longitud máxima es de 150 caracteres.

obligatorio: obligatorio: No

UrlInclusionPatterns

Una lista de patrones de expresión regular para incluir ciertas URL que se deben rastrear. Las URL que coinciden con los patrones se incluyen en el índice. Las URL que no coinciden con los patrones se excluyen del índice. Si una URL coincide con un patrón de inclusión y un patrón de exclusión, el patrón de exclusión tiene prioridad y el archivo de URL no se incluye en el índice.

Type: Matriz de cadenas

Miembros de la matriz: El número mínimo es 0 elementos. Número máximo de 100 elementos.

Restligligatorio: Longitud mínima de 1. La longitud máxima es de 150 caracteres.

obligatorio: obligatorio: No

Urls

Especifica las URL de inicio o punto de partida de los sitios web o las URL del mapa del sitio web de los sitios web que desea rastrear.

Puedes incluir subdominios de sitios web. Puedes enumerar hasta 100 URL de inicio y hasta tres URL de mapa del sitio.

Solo puede rastrear sitios web que utilizan el protocolo de comunicación segura, Protocolo seguro de transferencia de hipertexto (HTTPS). Si recibes un error al rastrear un sitio web, es posible que el sitio web esté bloqueado para que no pueda rastrearse.

Al seleccionar los sitios web que desea indexar, debe cumplir con lasPolítica de uso aceptable de Amazony todos los demás términos de Amazon. Recuerde que solo debe usar Amazon Kendra Web Crawler para indexar sus propias páginas web o páginas web para las que tiene autorización para indexar.

Tipo: objeto Urls

obligatorio: obligatorio: Sí

Véase también

Para obtener más información sobre el uso de esta API en un SDK de AWS de un lenguaje específico, consulte: