Rastrea páginas web para tu base de conocimientos de Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Rastrea páginas web para tu base de conocimientos de Amazon Bedrock

nota

El rastreo de las URL web como fuente de datos se encuentra en una versión preliminar y está sujeto a cambios.

El rastreador web proporcionado por Amazon Bedrock se conecta y rastrea las URL que ha seleccionado para usarlas en su base de conocimientos de Amazon Bedrock. Puede rastrear las páginas del sitio web de acuerdo con el alcance o los límites establecidos para las URL seleccionadas. Puede rastrear las páginas del sitio web mediante la consola de AWS administración de Amazon Bedrock o la CreateDataSourceAPI (consulte los SDK compatibles con Amazon Bedrock y). AWS CLI

Al seleccionar sitios web para rastrear, debes cumplir con la Política de uso aceptable de Amazon y todos los demás términos de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o páginas web para las que tenga autorización para rastrear.

Características admitidas

El rastreador web se conecta a las páginas HTML y las rastrea a partir de la URL inicial, recorriendo todos los enlaces secundarios situados en el mismo dominio principal y la misma ruta. Si alguna de las páginas HTML hace referencia a documentos compatibles, el rastreador web buscará estos documentos, independientemente de si se encuentran dentro del mismo dominio principal principal. Puede modificar el comportamiento de rastreo cambiando la configuración del rastreo; consulte. Configuración de conexión

Se admite lo siguiente:

  • Seleccione varias URL para rastrearlas

  • Respeta las directivas estándar de robots.txt, como «Permitir» y «No permitir»

  • Limite el alcance de las URL al rastreo y, si lo desea, excluya las URL que coincidan con un patrón de filtro

  • Limite la velocidad de rastreo de las URL

  • Ver el estado de las URL visitadas mientras se rastrea en Amazon CloudWatch

Requisitos previos

Para usar el rastreador web, asegúrate de:.

  • Compruebe que tiene permiso para rastrear las URL de su solicitud

nota

Al seleccionar sitios web para rastrear, debes cumplir con la Política de uso aceptable de Amazon y todos los demás términos de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o páginas web para las que tenga autorización para rastrear.

Configuración de conexión

Para obtener más información sobre el alcance de la sincronización de las URL de rastreo, los filtros de inclusión/exclusión, el acceso a las URL, la sincronización incremental y su funcionamiento, selecciona lo siguiente:

Puedes limitar el alcance de las URL que se van a rastrear en función de la relación específica de cada URL de página con las URL iniciales. Para un rastreo más rápido, puedes limitar las URL a aquellas que tengan el mismo host que la URL inicial y cuyas rutas incluyan la ruta de las URL iniciales. Para realizar rastreos más completos, puedes limitar las URL a las que estén en el mismo host o en cualquier subdominio de la URL inicial.

Para limitar aún más el alcance de las URL que se van a rastrear, si lo desea, puede proporcionar filtros de inclusión y exclusión. Se trata de patrones de expresiones regulares que coinciden con una URL seleccionada. Si una URL seleccionada coincide con algún filtro de exclusión, no se rastreará. Si se proporcionan filtros de inclusión, el rastreador solo intentará recuperar una URL si coincide con al menos un filtro de inclusión.

Puede utilizar el rastreador web para rastrear las páginas de los sitios web que está autorizado a rastrear.

nota

Al seleccionar sitios web para rastrear, debes cumplir con la Política de uso aceptable de Amazon y todos los demás términos de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o páginas web para las que tenga autorización para rastrear.

Cada vez que se ejecuta el Web Crawler, recupera el contenido de todas las URL a las que se puede acceder desde las URL de origen y que coinciden con el ámbito y los filtros. Para las sincronizaciones incrementales después de la primera sincronización de todo el contenido, Amazon Bedrock actualizará su base de conocimientos con contenido nuevo y modificado y eliminará el contenido antiguo que ya no esté presente. En ocasiones, es posible que el rastreador no sepa si el contenido se ha eliminado del sitio web y, en ese caso, se equivoca al conservar el contenido antiguo en su base de conocimientos.

Para sincronizar la fuente de datos con la base de conocimientos, utiliza la StartIngestionJobAPI o selecciona la base de conocimientos en la consola y selecciona Sincronizar en la sección de información general de la fuente de datos.

importante

Todos los datos que sincronice desde su fuente de datos estarán disponibles para cualquier persona con bedrock:Retrieve permisos para recuperarlos. Esto también puede incluir cualquier dato con permisos de fuente de datos controlados. Para obtener más información, consulte Permisos de la base de conocimientos.

Console

Los siguientes pasos configuran Web Crawler para su base de conocimiento de Amazon Bedrock. Web Crawler se configura como parte de los pasos de creación de la base de conocimientos en la consola.

  1. Inicie sesión en el rol de AWS Management Console uso de IAM con los permisos de Amazon Bedrock y abra la consola de Amazon Bedrock en https://console.aws.amazon.com/bedrock/.

  2. En el panel de navegación izquierdo, seleccione Bases de conocimiento.

  3. En la sección Bases de conocimiento, selecciona Crear base de conocimiento.

  4. Proporcione los detalles de la base de conocimientos.

    1. Proporcione el nombre de la base de conocimientos y la descripción opcional.

    2. Indique la AWS Identity and Access Management función correspondiente a los permisos de acceso necesarios para crear una base de conocimientos.

      nota

      El IAM rol con todos los permisos necesarios se puede crear automáticamente como parte de los pasos de la consola para crear una base de conocimientos. Una vez que haya completado los pasos para crear una base de conocimientos, el IAM rol con todos los permisos necesarios se aplicará a su base de conocimientos específica.

    3. Cree las etiquetas que desee asignar a su base de conocimientos.

    Vaya a la siguiente sección para configurar su fuente de datos.

  5. Elija Web Crawler como fuente de datos y proporcione los detalles de configuración.

    (Opcional) Cambie el nombre predeterminado de la fuente de datos e introduzca una descripción.

  6. Proporcione las direcciones URL de origen de las direcciones URL que desee rastrear. Puedes añadir hasta 9 URL adicionales seleccionando Añadir URL de origen. Al proporcionar una URL de origen, confirmas que estás autorizado a rastrear su dominio.

  7. Comprueba la configuración avanzada. Si lo desea, puede cambiar la configuración seleccionada por defecto.

    Para KMS key la configuración, puede elegir una clave personalizada o utilizar la clave de cifrado de datos proporcionada por defecto.

    Al convertir sus datos en incrustaciones, Amazon Bedrock cifra los datos transitorios con una clave que AWS posee y administra, de forma predeterminada. Puede usar su propia clave KMS. Para obtener más información, consulte Cifrado del almacenamiento de datos transitorios durante la ingesta de datos.

    Para configurar la política de eliminación de datos, puede elegir entre las siguientes opciones:

    • Eliminar: elimina todos los datos que pertenecen a la fuente de datos del almacén de vectores al eliminar una base de conocimientos o un recurso de fuente de datos. Tenga en cuenta que el almacén de vectores subyacente en sí no se elimina, solo se eliminan los datos. Este indicador se ignora si se elimina una AWS cuenta.

    • Conservar: conserva todos los datos del almacén vectorial al eliminar una base de conocimientos o un recurso de fuente de datos.

  8. Seleccione el ámbito de sincronización. Selecciona Predeterminado, Solo anfitrión o Subdominios. Introduzca los valores del filtro de inclusión y exclusión para limitar aún más el alcance del rastreo. Cada vez que se ejecuta el Web Crawler, recupera el contenido de todas las direcciones URL a las que se puede acceder desde las direcciones URL de origen y que coinciden con el ámbito y los filtros. Para las sincronizaciones incrementales después de la primera vez, Amazon Bedrock actualizará su base de conocimientos con contenido nuevo y modificado y eliminará el contenido antiguo que ya no esté presente. Para realizar rastreos más completos, puede limitar las URL a las que tengan el mismo dominio principal que las URL iniciales. Al configurar la fuente de datos para rastrear un sitio web, confirma que está autorizado para hacerlo.

  9. Introduzca el límite máximo de velocidad de rastreo. Introduzca entre 1 y 300 URL por host y por minuto. Una mayor velocidad de rastreo aumenta los costes, pero lleva menos tiempo.

  10. En el caso del patrón de URL (opcional), puede añadir patrones de inclusión o exclusión introduciendo el patrón de expresión regular en el cuadro. Puede añadir hasta 25 patrones de filtro de inclusión y 25 de exclusión seleccionando Añadir nuevo patrón.

  11. Elija las configuraciones de fragmentación y análisis predeterminadas o personalizadas.

    1. Si elige una configuración personalizada, seleccione una de las siguientes opciones de fragmentación:

      • Fragmentación de tamaño fijo: el contenido se divide en fragmentos de texto del tamaño aproximado que hayas establecido. Puedes establecer el número máximo de fichas que no debe superar un fragmento y el porcentaje de superposición entre fragmentos consecutivos.

      • Fragmentación predeterminada: el contenido se divide en fragmentos de texto de hasta 300 fichas. Si un solo documento o contenido contiene menos de 300 fichas, el documento no se divide más.

      • Fragmentación jerárquica: contenido organizado en estructuras anidadas de fragmentos principales e secundarios. Usted establece el tamaño máximo del token del fragmento principal y el tamaño máximo del token del fragmento secundario. También estableces el número absoluto de fichas superpuestas entre cada fragmento principal y el elemento principal con cada elemento secundario.

      • Fragmentación semántica: contenido organizado en fragmentos de texto o grupos de oraciones semánticamente similares. Establece el número máximo de oraciones que rodean a la oración objetiva/actual para agruparlas (tamaño del búfer). También estableces el umbral del percentil del punto de interrupción para dividir el texto en fragmentos significativos.

      • Sin fragmentación: cada documento se trata como un único fragmento de texto. Es posible que desee preprocesar los documentos dividiéndolos en archivos separados.

      nota

      No puede cambiar la estrategia de fragmentación después de haber creado la fuente de datos.

    2. Puede optar por utilizar el Amazon Bedrock modelo básico para analizar documentos y analizar más que el texto estándar. Puede analizar los datos tabulares de los documentos con su estructura intacta, por ejemplo. Consulte Amazon Bedrock los precios para obtener información sobre el costo de los modelos básicos.

    3. Puede optar por utilizar una AWS Lambda función para personalizar su estrategia de fragmentación y la forma en que se tratan e ingieren los atributos/campos de los metadatos del documento. Proporcione la ubicación del Amazon S3 depósito para la entrada y la salida de la función Lambda.

    Vaya a la siguiente sección para configurar su almacén de vectores.

  12. Elige un modelo para convertir tus datos en incrustaciones vectoriales.

    Cree una tienda vectorial para permitir que Amazon Bedrock almacene, actualice y gestione las incrustaciones. Puede crear rápidamente un nuevo almacén vectorial o seleccionar uno de los almacenes vectoriales compatibles que haya creado. Si crea un nuevo almacén de vectores, se configurará automáticamente una colección e índice de búsqueda vectorial de Amazon OpenSearch Serverless con los campos obligatorios. Si selecciona uno de los almacenes vectoriales compatibles, debe mapear los nombres de los campos vectoriales y los nombres de los campos de metadatos.

    Vaya a la siguiente sección para revisar las configuraciones de la base de conocimientos.

  13. Compruebe los detalles de su base de conocimientos. Puede editar cualquier sección antes de continuar con la creación de su base de conocimientos.

    nota

    El tiempo que se tarda en crear la base de conocimientos depende de la cantidad de datos que ingiera y de sus configuraciones específicas. Cuando termine de crearse la base de conocimientos, el estado de la base de conocimientos cambiará a Listo.

    Cuando la base de conocimientos esté lista o haya terminado de crearla, sincronice la fuente de datos por primera vez y siempre que desee mantener el contenido actualizado. Selecciona tu base de conocimientos en la consola y selecciona Sincronizar en la sección de descripción general de la fuente de datos.

CLI

El siguiente es un ejemplo de una configuración de Web Crawler para su base de conocimiento de Amazon Bedrock.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ] } }, "type": "WEB" }