Elija la herramienta que se va a utilizar para el análisis Elija una estrategia de fragmentación Utilice una función Lambda durante la ingestión

Personalice la ingesta de una fuente de datos

Puede personalizar la ingesta de vectores al conectar una fuente de datos AWS Management Console o al modificar el valor del vectorIngestionConfiguration campo al enviar una CreateDataSourcesolicitud.

Seleccione un tema para aprender a incluir configuraciones para personalizar la ingesta al conectarse a una fuente de datos:

Temas

Elija la herramienta que se va a utilizar para el análisis
Elija una estrategia de fragmentación
Utilice una función Lambda durante la ingestión

Elija la herramienta que se va a utilizar para el análisis

Puede personalizar la forma en que se analizan los documentos de sus datos. Para obtener más información sobre las opciones de análisis de datos en las bases de conocimiento de Amazon Bedrock, consulte. Opciones de análisis para su fuente de datos

aviso

No puede cambiar la estrategia de análisis después de conectarse a la fuente de datos. Para usar una estrategia de análisis diferente, puede agregar una nueva fuente de datos.

No puede añadir una ubicación de S3 para almacenar datos multimodales (incluidas imágenes, figuras, gráficos y tablas) después de haber creado una base de conocimientos. Si desea incluir datos multimodales y utilizar un analizador que los admita, debe crear una nueva base de conocimientos.

Los pasos necesarios para elegir una estrategia de análisis dependen de si utiliza la API AWS Management Console o la de Amazon Bedrock y del método de análisis que elija. Si elige un método de análisis que admita datos multimodales, debe especificar un URI de S3 en el que almacenar los datos multimodales extraídos de sus documentos. Estos datos se pueden devolver en una consulta a la base de conocimientos.

En el AWS Management Console, haga lo siguiente:
1. Seleccione la estrategia de análisis cuando se conecte a una fuente de datos mientras configura una base de conocimientos o cuando añada una nueva fuente de datos a su base de conocimientos existente.
2. (Si elige Amazon Bedrock Data Automation o un modelo básico como estrategia de análisis) Especifique un URI de S3 en el que almacenar los datos multimodales extraídos de sus documentos en la sección Destino de almacenamiento multimodal cuando seleccione un modelo de incrustaciones y configure su almacén vectorial. Si lo desea, también puede utilizar una clave gestionada por el cliente para cifrar los datos de S3 en este paso.
En la API de Amazon Bedrock, haga lo siguiente:
1. (Si planea utilizar Amazon Bedrock Data Automation o un modelo básico como estrategia de análisis) Incluya un SupplementalDataStorageLocationen VectorKnowledgeBaseConfigurationla solicitud. CreateKnowledgeBase
2. Incluya una ParsingConfigurationen el parsingConfiguration campo de VectorIngestionConfigurationla CreateDataSourcesolicitud.
  
  nota
  Si omite esta configuración, Amazon Bedrock Knowledge Bases utilizará el analizador predeterminado de Amazon Bedrock.

Para obtener más información sobre cómo especificar una estrategia de análisis en la API, amplíe la sección correspondiente a la estrategia de análisis que desee utilizar:

Para usar el analizador predeterminado, no incluya ningún parsingConfiguration campo dentro del. VectorIngestionConfiguration

Para utilizar el analizador de Amazon Bedrock Data Automation, especifique BEDROCK_DATA_AUTOMATION en el parsingStrategy campo ParsingConfiguration e incluya una BedrockDataAutomationConfigurationen el bedrockDataAutomationConfiguration campo, con el siguiente formato:


{
    "parsingStrategy": "BEDROCK_DATA_AUTOMATION",
    "bedrockDataAutomationConfiguration": {
        "parsingModality": "string"
    }
}

Para utilizar un modelo base como analizador, especifique el BEDROCK_FOUNDATION_MODEL en el parsingStrategy campo del ParsingConfiguration e incluya un BedrockFoundationModelConfigurationen el bedrockFoundationModelConfiguration campo, como en el siguiente formato:


{
    "parsingStrategy": "BEDROCK_FOUNDATION_MODEL",
    "bedrockFoundationModelConfiguration": {
        "modelArn": "string",
        "parsingModality": "string",
        "parsingPrompt": {
            "parsingPromptText": "string"
        }
    }
}

Elija una estrategia de fragmentación

Puede personalizar la forma en que se dividen los documentos de sus datos para su almacenamiento y recuperación. Para obtener más información sobre las opciones de fragmentación de datos en las bases de conocimiento de Amazon Bedrock, consulte. Cómo funciona la fragmentación de contenido para las bases de conocimiento

aviso

No puede cambiar la estrategia de fragmentación después de conectarse a la fuente de datos.

En el AWS Management Console , usted elige la estrategia de fragmentación al conectarse a una fuente de datos. Con la API de Amazon Bedrock, incluye un ChunkingConfigurationen el chunkingConfiguration campo de. VectorIngestionConfiguration

nota

Si omite esta configuración, Amazon Bedrock divide el contenido en partes de aproximadamente 300 fichas, sin perder los límites de las oraciones.

Amplíe la sección correspondiente a la estrategia de análisis que desee utilizar:

Para tratar cada documento de la fuente de datos como un fragmento de fuente único, especifique NONE en el chunkingStrategy campo delChunkingConfiguration, como en el siguiente formato:


{
    "chunkingStrategy": "NONE"
}

Para dividir cada documento de la fuente de datos en fragmentos de aproximadamente el mismo tamaño, especifique FIXED_SIZE en el chunkingStrategy campo ChunkingConfiguration e incluya una FixedSizeChunkingConfigurationen el fixedSizeChunkingConfiguration campo, como en el siguiente formato:


{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}

Para dividir cada documento de la fuente de datos en dos niveles, donde la segunda capa contenga fragmentos más pequeños derivados de la primera capa, especifique HIERARCHICAL el chunkingStrategy campo ChunkingConfiguration e inclúyalo, como en el siguiente formato: hierarchicalChunkingConfiguration


{
    "chunkingStrategy": "HIERARCHICAL",
    "hierarchicalChunkingConfiguration": {
        "levelConfigurations": [{
            "maxTokens": number
        }],
        "overlapTokens": number
    }
}

Para dividir cada documento de la fuente de datos en partes que prioricen el significado semántico por encima de la estructura sintáctica, especifique SEMANTIC el chunkingStrategy campo ChunkingConfiguration e inclúyalo, como en el semanticChunkingConfiguration siguiente formato:


{
    "chunkingStrategy": "SEMANTIC",
    "semanticChunkingConfiguration": {
        "breakpointPercentileThreshold": number,
        "bufferSize": number,
        "maxTokens": number
    }
}

Utilice una función Lambda durante la ingestión

Puede postprocesar la forma en que se escriben los fragmentos de origen de sus datos en el almacén de vectores con una función Lambda de las siguientes maneras:

Incluye una lógica de fragmentación para proporcionar una estrategia de fragmentación personalizada.
Incluya la lógica para especificar los metadatos a nivel de fragmento.

Para obtener más información sobre cómo escribir una función Lambda personalizada para su ingestión, consulte. Utilice una función Lambda de transformación personalizada para definir cómo se ingieren los datos En el AWS Management Console , elige la función Lambda al conectarse a una fuente de datos. Con la API de Amazon Bedrock, debe incluir un CustomTransformationConfigurationen el CustomTransformationConfiguration campo VectorIngestionConfigurationy especificar el ARN de la Lambda, con el siguiente formato:


{
    "transformations": [{
        "transformationFunction": {
            "transformationLambdaConfiguration": {
                "lambdaArn": "string"
            }
        },
        "stepToApply": "POST_CHUNKING"
    }],
    "intermediateStorage": {
        "s3Location": {
            "uri": "string"
        }
    }
}

También especifique la ubicación S3 en la que se almacenará la salida después de aplicar la función Lambda.

Puede incluir el chunkingConfiguration campo para aplicar la función Lambda después de aplicar una de las opciones de fragmentación que ofrece Amazon Bedrock.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Personalizada

Configuraciones de seguridad para la base de conocimientos