Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
nota
Actualmente, el almacenamiento en caché de solicitudes de Amazon Bedrock solo está disponible para un número selecto de clientes. Para obtener más información sobre cómo participar en la vista previa, consulte Amazon Bedrock Prompt Caching
El almacenamiento rápido en caché es una función opcional que puede utilizar al obtener inferencias de modelos en Amazon Bedrock para reducir la latencia de respuesta. Puede añadir partes de la conversación a una memoria caché para que el modelo pueda reutilizar el contexto de la memoria caché en lugar de procesar completamente la entrada y calcular las respuestas cada vez.
El almacenamiento rápido en caché puede ser útil cuando tienes cargas de trabajo con contextos largos y repetitivos que se reutilizan con frecuencia para múltiples consultas. Por ejemplo, si tienes un chatbot en el que los usuarios pueden subir documentos y hacer preguntas sobre ellos, el modelo puede tardar mucho tiempo en procesar el documento cada vez que el usuario introduce información. Con el rápido almacenamiento en caché, puedes almacenar en caché el documento en el contexto de la conversación para obtener respuestas más rápidas.
Al utilizar el almacenamiento rápido en caché, se cobra una tarifa reducida por las deducciones y una tarifa diferente por el número de fichas que se leen y escriben en la caché. Para obtener más información, consulte la página de Precios de Amazon Bedrock
Funcionamiento
Si opta por utilizar el almacenamiento rápido en caché, Amazon Bedrock crea una caché compuesta por puntos de control de caché. Estos son puntos de control en los que se almacena en caché todo el prefijo del mensaje que conduce a ese punto. En solicitudes posteriores, el modelo puede recuperar esta información almacenada en caché en lugar de volver a procesarla, lo que se traduce en tiempos de respuesta más rápidos y costos reducidos.
Los puntos de control de la memoria caché tienen un número mínimo y máximo de símbolos, según el modelo específico que utilices. Solo puedes crear un punto de control de caché si el prefijo total de tu mensaje cumple con el número mínimo de fichas. Por ejemplo, el modelo Anthropic Claude 3.5 Sonnet v2 requiere 1024 fichas para los puntos de control de la memoria caché. Puedes crear tu primer punto de control después de la solicitud y las respuestas del modelo llegarán a 1024 fichas. Puedes crear un segundo punto de control cuando el total alcance las 2.048 fichas. Si intentas añadir un punto de control de caché sin cumplir con el número mínimo de fichas, tu solicitud de inferencia seguirá siendo correcta, pero el punto de control no se añadirá a la caché.
La caché tiene un tiempo de vida útil (TTL) de cinco minutos, que se restablece cada vez que se accede correctamente a la caché. Durante este período, se conserva el contexto de la memoria caché. Si no se produce ningún acceso a la memoria caché dentro de la TTL ventana, la memoria caché caduca.
Si la caché caduca, puedes reutilizar el contexto previamente almacenado en caché hasta ese momento como primer punto de control de la caché de una caché nueva.
Puede utilizar el almacenamiento rápido en caché cada vez que obtenga inferencias de modelos en Amazon Bedrock para los modelos compatibles. El almacenamiento rápido en caché es compatible con las siguientes funciones de Amazon Bedrock:
- Converse y ConverseStream APIs
-
Puede mantener una conversación con un modelo en el que especifique los puntos de control de la memoria caché en sus solicitudes.
- InvokeModel y InvokeModelWithResponseStream APIs
-
Puede enviar solicitudes de mensajes individuales en las que se habilite el almacenamiento en caché de los mensajes y se especifiquen los puntos de control de la memoria caché.
- Amazon Bedrock playgrounds para texto
-
Puede activar el almacenamiento rápido en caché y Amazon Bedrock gestionará automáticamente el almacenamiento rápido en caché y el comportamiento de los puntos de control por usted.
- Agentes de Amazon Bedrock
-
Al crear o actualizar un agente, puede optar por activar o desactivar el almacenamiento rápido en caché. Amazon Bedrock gestiona automáticamente el comportamiento del rápido almacenamiento en caché y de los puntos de control por usted.
Le APIs proporcionan la mayor flexibilidad y un control detallado sobre la caché de solicitudes. Puede configurar cada punto de control de caché individual dentro de sus indicaciones. Puede añadir más puntos de control a la caché creando más puntos de control de caché, hasta el número máximo de puntos de control de caché permitido para el modelo específico. Para obtener más información, consulte Modelos, regiones y límites compatibles.
Para utilizar el almacenamiento rápido en caché con otras funciones, como Amazon Bedrock Agents, solo tiene que habilitar el campo de almacenamiento en caché rápido al crear o actualizar su agente. Cuando habilita el almacenamiento rápido en caché, Amazon Bedrock gestiona automáticamente el comportamiento del almacenamiento en caché y los puntos de control de la caché.
Modelos, regiones y límites compatibles
En la siguiente tabla se enumeran los valores mínimos de token admitidos Regiones de AWS, el número máximo de puntos de control de caché y los campos que permiten los puntos de control de caché para cada modelo compatible.
Nombre de modelo | ID del modelo | Regiones que admiten el almacenamiento rápido en caché | Número mínimo de tokens por punto de control de caché | Número máximo de puntos de control de caché | Campos en los que puede añadir puntos de control de caché |
---|---|---|---|---|---|
Amazon Nova Micro versión 1 |
amazona. nova-micro-v1:0 |
Este de EE. UU. (Norte de Virginia) Oeste de EE. UU. (Oregón) |
1 |
1 |
|
Amazon Nova Lite versión 1 |
amazona. nova-lite-v1:0 |
Este de EE. UU. (Norte de Virginia) Oeste de EE. UU. (Oregón) |
1 |
1 |
|
Amazon Nova Pro versión 1 |
amazona. nova-pro-v1:0 |
Este de EE. UU. (Norte de Virginia) Oeste de EE. UU. (Oregón) |
1 |
1 |
|
Claude 3.5 Haiku |
anthropic.claude-3-5-haiku-20241022-v1:0 |
Inferencia regular: US West (Oregón)
|
2048 |
4 |
|
Claude 3.5 Soneto v2 |
anthropic.claude-3-5-sonnet-20241022-v2:0 |
Inferencia regular: US West (Oregón)
|
1 024 |
4 |
|
Introducción
En las siguientes secciones se muestra una breve descripción de cómo utilizar la función de almacenamiento rápido en caché para cada método de interacción con los modelos a través de Amazon Bedrock.
Converse API ofrece opciones avanzadas y flexibles para implementar el almacenamiento rápido en caché en conversaciones de varios turnos. Para obtener más información sobre los requisitos de prontitud para cada modelo, consulte la sección anterior. Modelos, regiones y límites compatibles
Ejemplo de solicitud
Los siguientes ejemplos muestran un punto de control de caché establecido en los tools
campos messages
system
,, o de una solicitud al Converse API. Puede colocar puntos de control en cualquiera de estas ubicaciones para una solicitud determinada. Por ejemplo, si envía una solicitud al modelo Claude 3.5 Sonnet v2, puede colocar dos puntos de control de cachémessages
, un punto de control de caché y otro dentrosystem
. tools
Para obtener información más detallada y ejemplos de estructuración y envío Converse APIsolicitudes, consulteMantenga una conversación con el Converse Operaciones de API.
La respuesta modelo del Converse APIincluye dos campos nuevos que son específicos para solicitar el almacenamiento en caché. CacheWriteInputTokensCount
Los valores CacheReadInputTokensCount
y indican cuántos símbolos se han leído de la caché y cuántos se han escrito en ella debido a una solicitud anterior. Estos son valores que Amazon Bedrock le cobra, a una tarifa inferior al costo de la inferencia completa del modelo.
El almacenamiento rápido en caché está activado de forma predeterminada cuando se llama al. InvokeModelAPI Puede modificar el comportamiento del almacenamiento rápido en caché configurando el explicitPromptCaching
parámetro en oenabled
. disabled
A continuación, puedes establecer puntos de control de caché en cualquier punto del cuerpo de la solicitud, de forma similar al ejemplo anterior para Converse API.
El siguiente ejemplo muestra cómo estructurar el cuerpo de la InvokeModel solicitud para el modelo Claude 3.5 Sonnet v2. Tenga en cuenta que el formato exacto y los campos del cuerpo de InvokeModel las solicitudes pueden variar en función del modelo que elija. Para ver el formato y el contenido de los órganos de solicitud y respuesta para los diferentes modelos, consulteParámetros de solicitud de inferencia y campos de respuesta para los modelos fundacionales.
body={
"anthropic_version": "bedrock-2023-05-31",
"system":"Reply concisely",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe the best way to learn programming."
},
{
"type": "text",
"text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
"cache_control": {
"type": "ephemeral"
}
}
]
}
],
"max_tokens": 2048,
"temperature": 0.5,
"top_p": 0.8,
"stop_sequences": [
"stop"
],
"top_k": 250
}
Cuando realices tu solicitud, asegúrate de añadirlosexplicitPromptCaching='enabled'
, tal y como se muestra en el siguiente ejemplo.
response = bedrock_client.invoke_model(
body=body,
modelId=modelId,
accept=accept,
contentType=contentType,
explicitPromptCaching='enabled')
Para obtener más información sobre el envío de una InvokeModel solicitud, consulteEnvíe un único mensaje con InvokeModel.
En una zona de chat de la consola de Amazon Bedrock, puede activar la opción de almacenamiento rápido en caché y Amazon Bedrock creará automáticamente puntos de control de caché por usted.
Sigue las instrucciones Generación de respuestas en la consola mediante áreas de juego para empezar a dar instrucciones en un parque infantil de Amazon Bedrock. En el caso de los modelos compatibles, el almacenamiento rápido en caché se activa automáticamente en el patio de recreo. Sin embargo, si no es así, haz lo siguiente para activar el almacenamiento rápido en caché:
-
En el panel lateral izquierdo, abre el menú de configuraciones.
-
Activa la opción de almacenamiento en caché de mensajes.
-
Ejecuta tus indicaciones.
Cuando las respuestas combinadas de entrada y modelo alcancen la cantidad mínima requerida de tokens para un punto de control (que varía según el modelo), Amazon Bedrock crea automáticamente el primer punto de control de caché para usted. A medida que sigas chateando, cada vez que alcances el número mínimo de fichas, se crea un nuevo punto de control, hasta el número máximo de puntos de control permitido para el modelo. Para ver los puntos de control de la caché en cualquier momento, selecciona Ver los puntos de control de la caché junto a la opción de almacenamiento rápido en caché, como se muestra en la siguiente captura de pantalla.

Puede ver cuántos tokens se leen y escriben en la caché debido a cada interacción con el modelo viendo la ventana emergente de métricas de almacenamiento en caché (
) en las respuestas del campo de reproducción.

Si desactivas la opción de almacenamiento en caché mientras estás en medio de una conversación, podrás seguir chateando con la modelo.