Conéctese a Amazon S3 para su base de conocimientos de Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conéctese a Amazon S3 para su base de conocimientos de Amazon Bedrock

Amazon S3 es un servicio de almacenamiento de objetos que almacena datos como objetos dentro de buckets. Puede conectarse a su bucket de Amazon S3 para su base de conocimientos de Amazon Bedrock mediante el AWS Consola de administración para Amazon Bedrock o CreateDataSourceAPI(consulte Amazon Bedrock compatible y SDKs AWS CLI).

Puede cargar un lote pequeño de archivos a un bucket de Amazon S3 mediante la consola Amazon S3 oAPI. También puede utilizar AWS DataSyncpara cargar varios archivos a S3 de forma continua y transferirlos de forma programada desde una ubicación local, perimetral, otra nube o AWS almacenamiento.

Actualmente, solo se admiten los depósitos S3 de uso general.

Hay límites en cuanto al número de archivos y MB por archivo que se pueden rastrear. Consulte Cuotas para ver las bases de conocimiento.

Características admitidas

  • Campos de metadatos de documentos

  • Filtros de contenido de inclusión/exclusión

  • El contenido incremental se sincroniza para añadir, actualizar o eliminar contenido

Requisitos previos

En Amazon S3, asegúrese de:

  • Anote el bucket de Amazon S3URI, el nombre del recurso de Amazon (ARN) y el AWS ID de cuenta del propietario del bucket. Puede encontrar el URI y ARN en la sección de propiedades de la consola de Amazon S3. Tu depósito debe estar en la misma región que tu base de conocimientos de Amazon Bedrock. Debe tener permiso para acceder al depósito.

En tu AWS cuenta, asegúrate de:

  • Incluya los permisos necesarios para conectarse a su fuente de datos en su AWS Identity and Access Management (IAM) política de roles y permisos para su base de conocimientos. Para obtener información sobre los permisos necesarios para esta fuente de datos para añadirla a su base de conocimientos IAM rol, consulte Permisos para acceder a las fuentes de datos.

nota

Si usa la consola, el IAM Puede crear un rol con todos los permisos necesarios como parte de los pasos para crear una base de conocimientos. Una vez que haya configurado la fuente de datos y otras configuraciones, el IAM el rol con todos los permisos necesarios se aplica a su base de conocimientos específica.

Configuración de conexión

Para conectarse a su bucket de Amazon S3, debe proporcionar la información de configuración necesaria para que Amazon Bedrock pueda acceder a sus datos y rastrearlos. También debe seguir las. Requisitos previos

En esta sección se incluye un ejemplo de configuración para esta fuente de datos.

Para obtener más información sobre los filtros de inclusión/exclusión, los campos de metadatos de los documentos, la sincronización incremental y su funcionamiento, seleccione lo siguiente:

Puede incluir un archivo independiente que especifique los campos o atributos de metadatos del documento para cada archivo de Amazon S3. Por ejemplo, el documento oscars-coverage_20240310.pdf contiene artículos de noticias, que se pueden clasificar por año y género. Para este ejemplo, crea y sube a tu bucket lo siguiente oscars-coverage_20240310.pdf.metadata.json file.

{ "metadataAttributes": { "genre": "entertainment", "year": 2024 } }

El archivo de metadatos debe usar el mismo nombre que el archivo de documento fuente asociado, .metadata.json con un agregado al final del nombre del archivo. El archivo de metadatos debe almacenarse en la misma carpeta o ubicación que el archivo fuente de su bucket de Amazon S3. El archivo no debe superar el límite de 10 KB. Para obtener información sobre los tipos de datos de atributos o campos admitidos y los operadores de filtrado que puede aplicar a sus campos de metadatos, consulte Metadatos y filtrado.

Puedes incluir o excluir el rastreo de determinado contenido. Por ejemplo, puedes especificar un patrón de prefijo o expresión regular de exclusión para evitar el rastreo de cualquier archivo que contenga la palabra «privado» en el nombre del archivo. También puede especificar un patrón de prefijo o expresión regular de inclusión para incluir determinadas entidades o tipos de contenido. Si especificas un filtro de inclusión y exclusión y ambos coinciden con un documento, el filtro de exclusión tendrá prioridad y el documento no se rastreará.

Un ejemplo de patrón de filtro para incluir solo PDF archivos: «.*\\ .pdf»

El conector de fuentes de datos rastrea el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincroniza con la base de conocimientos. Amazon Bedrock puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido y rastrear el contenido que ha cambiado desde la última sincronización. Al sincronizar la fuente de datos con la base de conocimientos por primera vez, todo el contenido se rastrea de forma predeterminada.

Para sincronizar la fuente de datos con la base de conocimientos, usa StartIngestionJobAPIo selecciona tu base de conocimientos en la consola y selecciona Sincronizar en la sección de descripción general de la fuente de datos.

importante

Todos los datos que sincronice desde su fuente de datos estarán disponibles para cualquier persona que tenga bedrock:Retrieve permisos para recuperarlos. Esto también puede incluir cualquier dato con permisos de fuente de datos controlados. Para obtener más información, consulte Permisos de la base de conocimientos.

Console

El siguiente es un ejemplo de configuración para conectarse a Amazon S3 para su base de conocimiento de Amazon Bedrock. La fuente de datos se configura como parte de los pasos de creación de la base de conocimientos en la consola.

  1. Inicie sesión en AWS Management Console utilice un IAMrol con permisos de Amazon Bedrock y abra la consola de Amazon Bedrock en. https://console.aws.amazon.com/bedrock/

  2. En el panel de navegación izquierdo, seleccione Bases de conocimiento.

  3. En la sección Bases de conocimiento, selecciona Crear base de conocimiento.

  4. Proporcione los detalles de la base de conocimientos.

    1. Proporcione el nombre de la base de conocimientos y la descripción opcional.

    2. Proporcione el AWS Identity and Access Management rol para los permisos de acceso necesarios para crear una base de conocimientos.

      nota

      La IAM se puede crear un rol con todos los permisos necesarios como parte de los pasos de la consola para crear una base de conocimientos. Una vez que haya completado los pasos para crear una base de conocimientos, el IAM el rol con todos los permisos necesarios se aplica a su base de conocimientos específica.

    3. Cree las etiquetas que desee asignar a su base de conocimientos.

    Vaya a la siguiente sección para configurar su fuente de datos.

  5. Elija Amazon S3 como fuente de datos y proporcione los detalles de la configuración de la conexión.

    1. Proporcione el nombre de la fuente de datos.

    2. Especifique si su bucket de Amazon S3 está en su depósito actual AWS cuenta u otra AWS account.

    3. Navegue desde una ubicación de bucket de Amazon S3 existente o proporcione elURI. Puede encontrar el URI y ARN en la sección de propiedades de la consola de Amazon S3. Tu depósito debe estar en la misma región que tu base de conocimientos de Amazon Bedrock. Debe tener permiso para acceder al depósito.

      Puedes elegir usar tu propio administrador AWS KMS clave para el cifrado de datos.

    Compruebe la configuración avanzada. Si lo desea, puede cambiar la configuración seleccionada por defecto.

  6. Establezca su clave de cifrado de datos transitorios y su política de eliminación de datos en la configuración avanzada.

    En KMS key En su configuración, puede elegir una clave personalizada o utilizar la clave de cifrado de datos proporcionada por defecto.

    Al convertir sus datos en incrustaciones, Amazon Bedrock cifra sus datos transitorios con una clave que AWS posee y administra, de forma predeterminada. Puedes usar tu propia KMS clave. Para obtener más información, consulte Cifrado del almacenamiento de datos transitorios durante la ingesta de datos.

    Para configurar la política de eliminación de datos, puede elegir entre las siguientes opciones:

    • Eliminar: elimina todos los datos de la fuente de datos que se convierten en incrustaciones vectoriales al eliminar una base de conocimientos o un recurso de fuente de datos. Tenga en cuenta que el almacén de vectores en sí no se elimina, solo se eliminan los datos. Este indicador se ignora si un AWS se elimina la cuenta.

    • Conservar: conserva todos los datos de la fuente de datos que se convierten en incrustaciones vectoriales al eliminar una base de conocimientos o un recurso de fuente de datos. Tenga en cuenta que el almacén de vectores en sí no se elimina si elimina una base de conocimientos o un recurso de fuente de datos.

    Siga configurando la fuente de datos.

  7. Elija las configuraciones de fragmentación y análisis predeterminadas o personalizadas.

    1. Si elige una configuración personalizada, seleccione una de las siguientes opciones de fragmentación:

      • Fragmentación de tamaño fijo: el contenido se divide en fragmentos de texto del tamaño aproximado que hayas establecido. Puedes establecer el número máximo de fichas que no debe superar un fragmento y el porcentaje de superposición entre fragmentos consecutivos.

      • Fragmentación predeterminada: el contenido se divide en fragmentos de texto de hasta 300 fichas. Si un solo documento o contenido contiene menos de 300 fichas, el documento no se divide más.

      • Fragmentación jerárquica: contenido organizado en estructuras anidadas de fragmentos principales e secundarios. Usted establece el tamaño máximo del token del fragmento principal y el tamaño máximo del token del fragmento secundario. También ha establecido el número absoluto de fichas superpuestas entre los fragmentos principales consecutivos y los fragmentos secundarios consecutivos.

      • Fragmentación semántica: contenido organizado en fragmentos de texto o grupos de oraciones semánticamente similares. Establece el número máximo de oraciones que rodean a la oración objetiva/actual para agruparlas (tamaño del búfer). También estableces el umbral del percentil del punto de interrupción para dividir el texto en fragmentos significativos. La fragmentación semántica utiliza un modelo básico. Vista de Amazon Bedrock precios para obtener información sobre el costo de los modelos básicos.

      • Sin fragmentación: cada documento se trata como un único fragmento de texto. Es posible que desee preprocesar los documentos dividiéndolos en archivos separados.

      nota

      No puede cambiar la estrategia de fragmentación después de haber creado la fuente de datos.

    2. Puede optar por utilizar Amazon Bedrock es el modelo básico para analizar documentos con el fin de analizar más que el texto estándar. Puede analizar los datos tabulares de los documentos con su estructura intacta, por ejemplo. Vista de Amazon Bedrock precios para obtener información sobre el costo de los modelos básicos.

    3. Puede optar por utilizar un AWS Lambda función para personalizar su estrategia de fragmentación y la forma en que se tratan e ingieren los atributos/campos de los metadatos del documento. Proporcione el Amazon S3 ubicación del depósito para la entrada y salida de la función Lambda.

    Vaya a la siguiente sección para configurar su almacén de vectores.

  8. Elige un modelo para convertir tus datos en incrustaciones vectoriales.

    Cree una tienda vectorial para permitir que Amazon Bedrock almacene, actualice y gestione las incrustaciones. Puede crear rápidamente un nuevo almacén vectorial o seleccionar uno de los almacenes vectoriales compatibles que haya creado. Si crea un nuevo almacén de vectores, se configurará automáticamente una colección e índice de búsqueda vectorial de Amazon OpenSearch Serverless con los campos obligatorios. Si selecciona uno de los almacenes vectoriales compatibles, debe mapear los nombres de los campos vectoriales y los nombres de los campos de metadatos.

    Vaya a la siguiente sección para revisar las configuraciones de la base de conocimientos.

  9. Compruebe los detalles de su base de conocimientos. Puede editar cualquier sección antes de continuar con la creación de su base de conocimientos.

    nota

    El tiempo que se tarda en crear la base de conocimientos depende de las configuraciones específicas. Una vez finalizada la creación de la base de conocimientos, el estado de la base de conocimientos cambia al estado de lista o disponible.

    Cuando la base de conocimientos esté lista y disponible, sincronice la fuente de datos por primera vez y siempre que desee mantener el contenido actualizado. Selecciona tu base de conocimientos en la consola y selecciona Sincronizar en la sección de información general sobre la fuente de datos.

API

El siguiente es un ejemplo de configuración para conectarse a Amazon S3 para su base de conocimiento de Amazon Bedrock. La fuente de datos se configura mediante API el AWS CLI o compatiblesSDK, como Python. Después de llamar CreateKnowledgeBase, llama CreateDataSourcepara crear la fuente de datos con la información de conexióndataSourceConfiguration. Recuerde especificar también su estrategia o enfoque de fragmentación vectorIngestionConfiguration y su política de eliminación de datos. dataDeletionPolicy

AWS Command Line Interface

aws bedrock create-data-source \ --name "S3 connector" \ --description "S3 data source connector for Amazon Bedrock to use content in S3" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://s3-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' s3-bedrock-connector-configuration.json { "s3Configuration": { "bucketArn": "arn:aws:s3:::bucket-name", "bucketOwnerAccountId": "000000000000", "inclusionPrefixes": [ ".*\\.pdf" ] }, "type": "S3" }