Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Integración de Web Crawler
Con la integración de Web Crawler en Amazon Quick Suite, puede crear bases de conocimiento a partir del contenido del sitio web rastreando e indexando páginas web. Esta integración admite las capacidades de ingesta de datos con diferentes opciones de autenticación según el nivel de usuario.
Qué puede hacer
Los usuarios de Web Crawler pueden hacer preguntas sobre el contenido almacenado en sitios web y páginas web. Por ejemplo, los usuarios pueden consultar sitios de documentación, bases de conocimiento o buscar información específica en varias páginas web. La integración permite a los usuarios acceder rápidamente a la información del contenido web y comprenderla, independientemente de su ubicación o tipo, al tiempo que proporciona detalles contextuales, como las fechas de publicación, el historial de modificaciones y la propiedad de las páginas, lo que contribuye a descubrir la información de manera más eficiente y a tomar decisiones mejor informadas.
nota
La integración de Web Crawler solo admite la ingesta de datos. No proporciona funciones de acción para administrar sitios web o servicios web.
Antes de empezar
Antes de configurar la integración de Web Crawler, asegúrese de disponer de lo siguiente:
-
Sitio web URLs para rastrear e indexar.
-
Suscripción a Amazon Quick Suite Enterprise
-
El sitio web que deseas rastrear debe ser público y no puede estar protegido por un firewall ni requerir complementos de navegador especiales para conectarse.
Prepara el acceso y la autenticación del sitio web
Antes de configurar la integración en Amazon Quick Suite, prepare las credenciales de acceso a su sitio web. La integración de Web Crawler admite diferentes métodos de autenticación en función de su rol de usuario:
- Sin autenticación
-
Disponible para todos los usuarios. Se usa para rastrear sitios web públicos que no requieren autenticación.
- Autenticación básica
-
Autenticación básica HTTP estándar para sitios web seguros. La autenticación básica HTTP es una forma sencilla de proteger los recursos web al requerir un nombre de usuario y una contraseña. Cuando visite un sitio protegido mediante la autenticación básica, su navegador mostrará un cuadro de diálogo emergente en el que se le solicitarán sus credenciales.
Credenciales requeridas:
-
URL de la página de inicio de sesión: la URL de la página de inicio de sesión
Nombre de usuario: nombre de usuario de autenticación básico
Contraseña: contraseña de autenticación básica
-
- Autenticación de formulario
-
Para sitios web que utilizan páginas de inicio de sesión basadas en formularios HTML.
El formulario está configurado para que lo especifique usted. XPath XPath (lenguaje de rutas XML) es un lenguaje de consulta que se utiliza para navegar por los elementos y atributos de un documento HTML o XML. XPath Para identificar un elemento de una página web, el usuario puede utilizar las herramientas de desarrollo de su navegador, a las que normalmente se accede haciendo clic con el botón derecho del ratón en el elemento deseado y seleccionando «Inspeccionar» o pulsando la tecla F12. Una vez resaltado el elemento en las herramientas de desarrollo, el usuario puede hacer clic con el botón derecho en el código HTML correspondiente, seleccionar «Copiar» y, a continuación, elegir «Copiar XPath» en el submenú. Esto genera una ruta única que identifica la ubicación exacta del elemento en la estructura del documento. El resultado XPath podría tener un aspecto parecido a //input [@id ='username'] o //button [@type ='submit'], donde las barras diagonales dobles (//) indican que la ruta puede empezar en cualquier parte del documento y los corchetes contienen atributos que ayudan a identificar el elemento específico.
Información requerida:
URL de la página de inicio de sesión: URL del formulario de inicio de sesión (por ejemplo,
https://example.com/login)Nombre de usuario: nombre de usuario de inicio
Contraseña: contraseña de inicio de sesión
Campo de nombre de usuario XPath: XPath al campo de entrada de nombre de usuario (por ejemplo,
//input[@id='username'])-
Botón de nombre de usuario XPath (opcional): XPath al campo del botón de nombre de usuario (por ejemplo,
//input[@id='username_button']) Campo de contraseña XPath: XPath al campo de entrada de contraseña (por ejemplo,
//input[@id='password'])Botón de contraseña XPath: XPath al botón de contraseña (por ejemplo,
//button[@type='password'])
- Autenticación SAML
-
Para sitios web que utilizan la autenticación de inicio de sesión único basada en SAML.
La autenticación SAML (Security Assertion Markup Language) es un estándar de identidad federado que permite el inicio de sesión único (SSO) al permitir a los usuarios autenticarse a través de un proveedor de identidad centralizado en lugar de introducir las credenciales directamente en cada aplicación. A diferencia de la autenticación con formularios tradicional, en la que los usuarios escriben su nombre de usuario y contraseña en los campos de la página de inicio de sesión de la aplicación, SAML redirige a los usuarios al proveedor de identidad de su organización (como Microsoft Azure AD u Okta) para autenticarse y, a continuación, devuelve un token seguro a la aplicación para conceder el acceso. Este enfoque proporciona una experiencia de usuario perfecta en múltiples aplicaciones, una administración de usuarios centralizada para los administradores de TI y una seguridad mejorada a través de funciones como la autenticación de múltiples factores, mientras que la autenticación de formularios requiere una administración de credenciales independiente para cada aplicación individual.
Información requerida:
URL de la página de inicio de sesión: URL de la página de inicio de sesión de SAML
Nombre de usuario: nombre de usuario de SAML
Contraseña: contraseña SAML
-
Campo de nombre de usuario XPath: XPath al campo de entrada de nombre de usuario (por ejemplo,
//input[@id='username']) -
Botón de nombre de usuario XPath (opcional): XPath al campo del botón de nombre de usuario (por ejemplo,
//input[@id='username_button']) -
Campo de contraseña XPath: XPath al campo de entrada de contraseña (por ejemplo,
//input[@id='password']) -
Botón de contraseña XPath: XPath al botón de contraseña (por ejemplo,
//button[@type='password'])
XPath ejemplos de configuración
Usa estos XPath ejemplos para configurar la autenticación de formularios y SAML:
Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]
Configure la integración de Web Crawler
Tras preparar los requisitos de acceso a su sitio web, cree la integración de Web Crawler en Amazon Quick Suite.
-
En la consola de Amazon Quick Suite, selecciona Integraciones.
-
Elija Web Crawler entre las opciones de integración y haga clic en el botón Añadir (junto con el botón «+»).
-
Selecciona Acceder a los datos desde Web Crawler. La integración de Web Crawler solo permite el acceso a los datos; la ejecución de acciones no está disponible para el rastreo web.
-
Configure los detalles de la integración y el método de autenticación y, a continuación, cree bases de conocimiento según sea necesario.
-
Seleccione el tipo de autenticación para la integración de su rastreador web.
-
Complete los detalles requeridos en función del método de autenticación que haya seleccionado.
-
Selecciona Crear y continuar.
-
Complete el nombre y la descripción de su base de conocimientos.
-
Añada el contenido que URLs desee rastrear.
-
Seleccione Crear.
-
Tras hacer clic en crear, la sincronización de datos se inicia automáticamente.
Configure el rastreo
Puede configurar qué sitios web y páginas rastrear y cómo filtrar el contenido.
Configuración URLs y fuentes de contenido
Configure qué sitios web y páginas desea rastrear:
Directo URLs
Especifique la persona URLs a la que desee rastrear:
https://example.com/docs https://example.com/blog https://example.com/support
Límite: máximo 10 URLs por conjunto de datos
Filtros de contenido y configuración de rastreo
Configuración del ámbito de rastreo
Para ver esta configuración, primero debe configurar una base de conocimientos y, a continuación, examinar la opción de configuración avanzada.
- Profundidad de rastreo
-
Rango: 0-10 (predeterminado: 1)
0 = solo se ha especificado el rastreo URLs
1 = incluir páginas enlazadas de un nivel de profundidad
Los valores más altos hacen que los enlaces se adentren más profundamente en el sitio
- Número máximo de enlaces por página
-
Predeterminado: 1000
Máximo: 1000
Controla el número de enlaces que se deben seguir desde cada página
- Tiempo de espera
-
Valor predeterminado: 1
-
El tiempo que el rastreador web esperará a ver cada página después de que ésta alcance el estado de «página lista». Esto resulta útil para las páginas que tienen características de carga dinámicas de JavaScript, donde la página tiene bloques de contenido que se cargan después de cargar la plantilla principal. Aumente el tiempo de espera si tiene contenido visualmente rico o prevé tiempos de carga elevados.
Gestione las bases de conocimiento
Tras configurar la integración del rastreador web, puede crear y gestionar bases de conocimiento a partir del contenido del sitio web rastreado.
Edite las bases de conocimiento existentes
Puede modificar sus bases de conocimiento de Web Crawler existentes:
-
En la consola de Amazon Quick Suite, elija Bases de conocimiento.
-
Seleccione la base de conocimientos de Web Crawler de la lista.
-
Selecciona el icono de tres puntos en Acciones y, a continuación, selecciona Editar base de conocimientos.
-
Actualice los ajustes de configuración según sea necesario y seleccione Guardar.
Cree bases de conocimiento adicionales
Puede crear varias bases de conocimiento a partir de la misma integración de Web Crawler:
-
En la consola de Amazon Quick Suite, selecciona Integraciones y, a continuación, selecciona la pestaña Datos.
-
Elija su integración de Web Crawler existente de la lista.
-
Selecciona el icono de tres puntos en Acciones y, a continuación, selecciona Crear base de conocimientos.
-
Configure los ajustes de la base de conocimientos y seleccione Crear.
Para obtener información detallada sobre las opciones de configuración de la base de conocimientos, consulteParámetros de configuración comunes.
Rastreo de archivos adjuntos y archivos
Controle si el sistema procesa los archivos y adjuntos enlazados desde páginas web:
-
Habilitar el rastreo de archivos adjuntos: seleccione esta opción para rastrear e indexar los archivos y adjuntos que se encuentran en las páginas web PDFs, como documentos y archivos multimedia.
Comportamiento de rastreo y configuración de sincronización
La integración de Web Crawler sigue estas prácticas de rastreo:
Modelo de sincronización incremental: la primera sincronización realiza un rastreo completo y las sincronizaciones posteriores solo capturan los cambios
Reintento automático: lógica de reintento integrada para las solicitudes fallidas
Tratamiento de duplicados: detección y tratamiento automáticos de URLs
Identificación del rastreador: se identifica con la cadena de agente de usuario «aws-quick-on-behalf-of-<UUID>» en los encabezados de las solicitudes
Conformidad con Robots.txt
Web Crawler respeta el protocolo robots.txt y respeta las directivas y el agente de usuario. allow/disallow Esto le permite controlar la forma en que el rastreador accede a su sitio.
Cómo funciona la comprobación de robots.txt
Comprobación a nivel de host: Web Crawler lee los archivos robots.txt en el nivel de host (por ejemplo, example.com/robots.txt)
Compatibilidad con varios hosts: para los dominios con varios hosts, Web Crawler respeta las reglas de robots para cada host por separado
Comportamiento alternativo: si Web Crawler no puede recuperar el archivo robots.txt debido a un bloqueo, errores de análisis o tiempos de espera, se comportará como si robots.txt no existiera y rastreará el sitio
Campos robots.txt compatibles
Web Crawler reconoce estos campos de robots.txt (los nombres de los campos no distinguen entre mayúsculas y minúsculas, los valores distinguen entre mayúsculas y minúsculas):
user-agentIdentifica a qué rastreador se aplican las reglas
allowUna ruta URL que se puede rastrear
disallowUna ruta URL que no se puede rastrear
sitemapLa URL completa de un mapa del sitio
crawl-delayCantidad de tiempo especificada (en segundos) que debe transcurrir entre las solicitudes a tu sitio web
Soporte para metaetiquetas
Web Crawler admite metaetiquetas de robots a nivel de página que puede utilizar para controlar el uso de sus datos. Puede especificar la configuración a nivel de página incluyendo una metaetiqueta en las páginas HTML o en un encabezado HTTP.
Metaetiquetas compatibles
noindexNo indexe la página. Si no especificas esta regla, es posible que la página esté indexada y apta para aparecer en las experiencias
nofollowNo sigas los enlaces de esta página. Si no especificas esta regla, Web Crawler puede usar los enlaces de la página para descubrirlas
Puede combinar varios valores mediante una coma (por ejemplo, «noindex, nofollow»).
nota
Para detectar las metaetiquetas, Web Crawler necesita acceder a tu página, así que no la bloquees con el archivo robots.txt para evitar que se vuelva a rastrear.
Resolución de problemas
Utilice esta sección para resolver problemas habituales relacionados con la integración de Web Crawler.
Errores de autenticación
Síntomas:
Mensajes de error que indican que no se puede autenticar
Respuestas HTTP 401/403
Bucles de redirección de páginas de inicio
Errores de tiempo de espera de la sesión
Pasos de resolución:
Compruebe que se puede acceder al sitio desde la AWS región en la que está configurada la instancia de Amazon Quick Suite
Compruebe la precisión de las credenciales y asegúrese de que no hayan caducado
Compruebe la disponibilidad y accesibilidad de los terminales de autenticación
Valide XPath las configuraciones probándolas en las herramientas para desarrolladores de navegadores
Revise los registros de red del navegador para comprender el flujo de autenticación
Asegúrese de que la URL de la página de inicio de sesión sea correcta y accesible
Pruebe la autenticación manualmente con las mismas credenciales
Problemas de acceso y conectividad
Síntomas:
Tiempos de espera de conexión y errores de red
Errores de red inalcanzables
Fallos en la resolución de DNS
Pasos de resolución:
-
Verifique la conectividad de la red con los sitios web de destino
-
Valide la accesibilidad del sitio:
Compruebe la resolución de DNS de los dominios de destino
Compruebe SSL/TLS la configuración y los certificados
Si es posible, pruebe el acceso desde diferentes redes
Problemas de rastreo y contenido
Síntomas:
Contenido faltante o incompleto
Búsquedas incompletas o finalización anticipada
Errores de limitación de velocidad (429 respuestas)
El contenido no se indexa correctamente
Pasos de resolución:
-
Revise las restricciones de robots.txt:
Compruebe las restricciones de rastreo en el archivo robots.txt
Compruebe que el rastreador pueda acceder a las rutas de destino
Asegúrese de que el cumplimiento de robots.txt no bloquee el contenido
-
Comprueba la limitación y la regulación de la velocidad:
Supervise los encabezados de respuesta para obtener información sobre el límite de velocidad
Implemente los retrasos de rastreo adecuados
-
Verifica los patrones y filtros de URL:
Pruebe los patrones de expresiones regulares para comprobar su precisión
Comprueba el formato y la estructura de las URL
Valide la lógica include/exclude de los patrones
-
Revisa las restricciones de contenido:
Comprueba si hay metaetiquetas no indexadas en las páginas
Verifica la compatibilidad con los tipos de contenido
Asegúrese de que el tamaño del contenido esté dentro de los límites
-
Actualiza el tiempo de espera a un valor adecuado para que el contenido se cargue en la página antes de que el rastreador intente rastrearla
Limitaciones conocidas
La integración de Web Crawler tiene las siguientes limitaciones:
Límites de URL: máximo 10 URLs, no se admite el mapa del sitio
Profundidad de rastreo: profundidad de rastreo máxima de 10 niveles
Requisitos de seguridad: se requiere HTTPS para las configuraciones de proxy web