Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Personalice la ingesta de una fuente de datos

Modo de enfoque
Personalice la ingesta de una fuente de datos - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Puede personalizar la ingesta de vectores al conectar una fuente de datos AWS Management Console o al modificar el valor del vectorIngestionConfiguration campo al enviar una CreateDataSourcesolicitud.

Seleccione un tema para aprender a incluir configuraciones para personalizar la ingesta al conectarse a una fuente de datos:

Elija la herramienta que se utilizará para el análisis

Puede personalizar la forma en que se analizan los documentos de sus datos. Para obtener información sobre las opciones de análisis de datos en las bases de conocimiento de Amazon Bedrock, consulte. Opciones de análisis para su fuente de datos

En la, AWS Management Console usted elige la estrategia de análisis al conectarse a una fuente de datos. Con la API de Amazon Bedrock, incluye un ParsingConfigurationen el parsingConfiguration campo de. VectorIngestionConfiguration

nota

Si omite esta configuración, Amazon Bedrock Knowledge Bases utilizará el analizador predeterminado de Amazon Bedrock.

Amplíe la sección correspondiente a la estrategia de análisis que desee utilizar:

Para usar el analizador predeterminado, no incluya ningún parsingConfiguration campo dentro del. VectorIngestionConfiguration

Para usar el analizador predeterminado, no incluya ningún parsingConfiguration campo dentro del. VectorIngestionConfiguration

Para utilizar el analizador de Amazon Bedrock Data Automation, especifique BEDROCK_DATA_AUTOMATION en el parsingStrategy campo ParsingConfiguration e incluya una BedrockDataAutomationConfigurationen el bedrockDataAutomationConfiguration campo, con el siguiente formato:

{ "parsingStrategy": "BEDROCK_DATA_AUTOMATION", "bedrockDataAutomationConfiguration": { "parsingModality": "string" } }

Para utilizar el analizador de Amazon Bedrock Data Automation, especifique BEDROCK_DATA_AUTOMATION en el parsingStrategy campo ParsingConfiguration e incluya una BedrockDataAutomationConfigurationen el bedrockDataAutomationConfiguration campo, con el siguiente formato:

{ "parsingStrategy": "BEDROCK_DATA_AUTOMATION", "bedrockDataAutomationConfiguration": { "parsingModality": "string" } }

Para utilizar un modelo base como analizador, especifique el BEDROCK_FOUNDATION_MODEL en el parsingStrategy campo del ParsingConfiguration e incluya un BedrockFoundationModelConfigurationen el bedrockFoundationModelConfiguration campo, como en el siguiente formato:

{ "parsingStrategy": "BEDROCK_FOUNDATION_MODEL", "bedrockFoundationModelConfiguration": { "modelArn": "string", "parsingModality": "string", "parsingPrompt": { "parsingPromptText": "string" } } }

Para utilizar un modelo base como analizador, especifique el BEDROCK_FOUNDATION_MODEL en el parsingStrategy campo del ParsingConfiguration e incluya un BedrockFoundationModelConfigurationen el bedrockFoundationModelConfiguration campo, como en el siguiente formato:

{ "parsingStrategy": "BEDROCK_FOUNDATION_MODEL", "bedrockFoundationModelConfiguration": { "modelArn": "string", "parsingModality": "string", "parsingPrompt": { "parsingPromptText": "string" } } }

Elija una estrategia de fragmentación

Puede personalizar la forma en que se dividen los documentos de sus datos para su almacenamiento y recuperación. Para obtener más información sobre las opciones de fragmentación de datos en las bases de conocimiento de Amazon Bedrock, consulte. Cómo funciona la fragmentación de contenido para las bases de conocimiento

aviso

No puede cambiar la estrategia de fragmentación después de conectarse a la fuente de datos.

En el AWS Management Console , usted elige la estrategia de fragmentación al conectarse a una fuente de datos. Con la API de Amazon Bedrock, incluye un ChunkingConfigurationen el chunkingConfiguration campo de. VectorIngestionConfiguration

nota

Si omite esta configuración, Amazon Bedrock divide el contenido en partes de aproximadamente 300 fichas, sin perder los límites de las oraciones.

Amplíe la sección correspondiente a la estrategia de análisis que desee utilizar:

Para tratar cada documento de la fuente de datos como un fragmento de fuente único, especifique NONE en el chunkingStrategy campo delChunkingConfiguration, como en el siguiente formato:

{ "chunkingStrategy": "NONE" }

Para tratar cada documento de la fuente de datos como un fragmento de fuente único, especifique NONE en el chunkingStrategy campo delChunkingConfiguration, como en el siguiente formato:

{ "chunkingStrategy": "NONE" }

Para dividir cada documento de la fuente de datos en fragmentos de aproximadamente el mismo tamaño, especifique FIXED_SIZE en el chunkingStrategy campo ChunkingConfiguration e incluya una FixedSizeChunkingConfigurationen el fixedSizeChunkingConfiguration campo, como en el siguiente formato:

{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }

Para dividir cada documento de la fuente de datos en fragmentos de aproximadamente el mismo tamaño, especifique FIXED_SIZE en el chunkingStrategy campo ChunkingConfiguration e incluya una FixedSizeChunkingConfigurationen el fixedSizeChunkingConfiguration campo, como en el siguiente formato:

{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }

Para dividir cada documento de la fuente de datos en dos niveles, donde la segunda capa contenga fragmentos más pequeños derivados de la primera capa, especifique HIERARCHICAL el chunkingStrategy campo ChunkingConfiguration e inclúyalo, como en el siguiente formato: hierarchicalChunkingConfiguration

{ "chunkingStrategy": "HIERARCHICAL", "hierarchicalChunkingConfiguration": { "levelConfigurations": [{ "maxTokens": number }], "overlapTokens": number } }

Para dividir cada documento de la fuente de datos en dos niveles, donde la segunda capa contenga fragmentos más pequeños derivados de la primera capa, especifique HIERARCHICAL el chunkingStrategy campo ChunkingConfiguration e inclúyalo, como en el siguiente formato: hierarchicalChunkingConfiguration

{ "chunkingStrategy": "HIERARCHICAL", "hierarchicalChunkingConfiguration": { "levelConfigurations": [{ "maxTokens": number }], "overlapTokens": number } }

Para dividir cada documento de la fuente de datos en partes que prioricen el significado semántico por encima de la estructura sintáctica, especifique SEMANTIC el chunkingStrategy campo ChunkingConfiguration e inclúyalo, como en el semanticChunkingConfiguration siguiente formato:

{ "chunkingStrategy": "SEMANTIC", "semanticChunkingConfiguration": { "breakpointPercentileThreshold": number, "bufferSize": number, "maxTokens": number } }

Para dividir cada documento de la fuente de datos en partes que prioricen el significado semántico por encima de la estructura sintáctica, especifique SEMANTIC el chunkingStrategy campo ChunkingConfiguration e inclúyalo, como en el semanticChunkingConfiguration siguiente formato:

{ "chunkingStrategy": "SEMANTIC", "semanticChunkingConfiguration": { "breakpointPercentileThreshold": number, "bufferSize": number, "maxTokens": number } }

Utilice una función Lambda durante la ingestión

Puede postprocesar la forma en que se escriben los fragmentos de origen de sus datos en el almacén de vectores con una función Lambda de las siguientes maneras:

  • Incluye una lógica de fragmentación para proporcionar una estrategia de fragmentación personalizada.

  • Incluya la lógica para especificar los metadatos a nivel de fragmento.

Para obtener información sobre cómo escribir una función Lambda personalizada para su ingestión, consulte. Utilice una función Lambda de transformación personalizada para definir cómo se ingieren los datos En el AWS Management Console , elige la función Lambda al conectarse a una fuente de datos. Con la API de Amazon Bedrock, debe incluir un CustomTransformationConfigurationen el CustomTransformationConfiguration campo VectorIngestionConfigurationy especificar el ARN de la Lambda, con el siguiente formato:

{ "transformations": [{ "transformationFunction": { "transformationLambdaConfiguration": { "lambdaArn": "string" } }, "stepToApply": "POST_CHUNKING" }], "intermediateStorage": { "s3Location": { "uri": "string" } } }

También especifique la ubicación S3 en la que se almacenará la salida después de aplicar la función Lambda.

Puede incluir el chunkingConfiguration campo para aplicar la función Lambda después de aplicar una de las opciones de fragmentación que ofrece Amazon Bedrock.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.