Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Puede personalizar la ingesta de vectores al conectar una fuente de datos AWS Management Console o al modificar el valor del vectorIngestionConfiguration
campo al enviar una CreateDataSourcesolicitud.
Seleccione un tema para aprender a incluir configuraciones para personalizar la ingesta al conectarse a una fuente de datos:
Temas
Elija la herramienta que se utilizará para el análisis
Puede personalizar la forma en que se analizan los documentos de sus datos. Para obtener información sobre las opciones de análisis de datos en las bases de conocimiento de Amazon Bedrock, consulte. Opciones de análisis para su fuente de datos
En la, AWS Management Console usted elige la estrategia de análisis al conectarse a una fuente de datos. Con la API de Amazon Bedrock, incluye un ParsingConfigurationen el parsingConfiguration
campo de. VectorIngestionConfiguration
nota
Si omite esta configuración, Amazon Bedrock Knowledge Bases utilizará el analizador predeterminado de Amazon Bedrock.
Amplíe la sección correspondiente a la estrategia de análisis que desee utilizar:
Para usar el analizador predeterminado, no incluya ningún parsingConfiguration
campo dentro del. VectorIngestionConfiguration
Para utilizar el analizador de Amazon Bedrock Data Automation, especifique BEDROCK_DATA_AUTOMATION
en el parsingStrategy
campo ParsingConfiguration
e incluya una BedrockDataAutomationConfigurationen el bedrockDataAutomationConfiguration
campo, con el siguiente formato:
{
"parsingStrategy": "BEDROCK_DATA_AUTOMATION",
"bedrockDataAutomationConfiguration": {
"parsingModality": "string"
}
}
Para utilizar un modelo base como analizador, especifique el BEDROCK_FOUNDATION_MODEL
en el parsingStrategy
campo del ParsingConfiguration
e incluya un BedrockFoundationModelConfigurationen el bedrockFoundationModelConfiguration
campo, como en el siguiente formato:
{
"parsingStrategy": "BEDROCK_FOUNDATION_MODEL",
"bedrockFoundationModelConfiguration": {
"modelArn": "string",
"parsingModality": "string",
"parsingPrompt": {
"parsingPromptText": "string"
}
}
}
Elija una estrategia de fragmentación
Puede personalizar la forma en que se dividen los documentos de sus datos para su almacenamiento y recuperación. Para obtener más información sobre las opciones de fragmentación de datos en las bases de conocimiento de Amazon Bedrock, consulte. Cómo funciona la fragmentación de contenido para las bases de conocimiento
aviso
No puede cambiar la estrategia de fragmentación después de conectarse a la fuente de datos.
En el AWS Management Console , usted elige la estrategia de fragmentación al conectarse a una fuente de datos. Con la API de Amazon Bedrock, incluye un ChunkingConfigurationen el chunkingConfiguration
campo de. VectorIngestionConfiguration
nota
Si omite esta configuración, Amazon Bedrock divide el contenido en partes de aproximadamente 300 fichas, sin perder los límites de las oraciones.
Amplíe la sección correspondiente a la estrategia de análisis que desee utilizar:
Para tratar cada documento de la fuente de datos como un fragmento de fuente único, especifique NONE
en el chunkingStrategy
campo delChunkingConfiguration
, como en el siguiente formato:
{
"chunkingStrategy": "NONE"
}
Para dividir cada documento de la fuente de datos en fragmentos de aproximadamente el mismo tamaño, especifique FIXED_SIZE
en el chunkingStrategy
campo ChunkingConfiguration
e incluya una FixedSizeChunkingConfigurationen el fixedSizeChunkingConfiguration
campo, como en el siguiente formato:
{
"chunkingStrategy": "FIXED_SIZE",
"fixedSizeChunkingConfiguration": {
"maxTokens": number,
"overlapPercentage": number
}
}
Para dividir cada documento de la fuente de datos en dos niveles, donde la segunda capa contenga fragmentos más pequeños derivados de la primera capa, especifique HIERARCHICAL
el chunkingStrategy
campo ChunkingConfiguration
e inclúyalo, como en el siguiente formato: hierarchicalChunkingConfiguration
{
"chunkingStrategy": "HIERARCHICAL",
"hierarchicalChunkingConfiguration": {
"levelConfigurations": [{
"maxTokens": number
}],
"overlapTokens": number
}
}
Para dividir cada documento de la fuente de datos en partes que prioricen el significado semántico por encima de la estructura sintáctica, especifique SEMANTIC
el chunkingStrategy
campo ChunkingConfiguration
e inclúyalo, como en el semanticChunkingConfiguration
siguiente formato:
{
"chunkingStrategy": "SEMANTIC",
"semanticChunkingConfiguration": {
"breakpointPercentileThreshold": number,
"bufferSize": number,
"maxTokens": number
}
}
Utilice una función Lambda durante la ingestión
Puede postprocesar la forma en que se escriben los fragmentos de origen de sus datos en el almacén de vectores con una función Lambda de las siguientes maneras:
-
Incluye una lógica de fragmentación para proporcionar una estrategia de fragmentación personalizada.
-
Incluya la lógica para especificar los metadatos a nivel de fragmento.
Para obtener información sobre cómo escribir una función Lambda personalizada para su ingestión, consulte. Utilice una función Lambda de transformación personalizada para definir cómo se ingieren los datos En el AWS Management Console , elige la función Lambda al conectarse a una fuente de datos. Con la API de Amazon Bedrock, debe incluir un CustomTransformationConfigurationen el CustomTransformationConfiguration
campo VectorIngestionConfigurationy especificar el ARN de la Lambda, con el siguiente formato:
{
"transformations": [{
"transformationFunction": {
"transformationLambdaConfiguration": {
"lambdaArn": "string"
}
},
"stepToApply": "POST_CHUNKING"
}],
"intermediateStorage": {
"s3Location": {
"uri": "string"
}
}
}
También especifique la ubicación S3 en la que se almacenará la salida después de aplicar la función Lambda.
Puede incluir el chunkingConfiguration
campo para aplicar la función Lambda después de aplicar una de las opciones de fragmentación que ofrece Amazon Bedrock.