Funcionamiento Modelos, regiones y límites compatibles Administración de caché simplificada para los modelos Claude Introducción

Almacenamiento rápido en caché para una inferencia de modelos más rápida

nota

El almacenamiento en caché rápido de Amazon Bedrock generalmente está disponible con Claude 3.7 Sonnet, Claude 3.5 Haiku,,Amazon Nova Micro, Amazon Nova Lite y. Amazon Nova Pro Amazon Nova Premier Los clientes a los que se les haya dado acceso al Claude 3.5 Sonnet v2 durante la vista previa del almacenamiento rápido en caché conservarán su acceso; sin embargo, ningún otro cliente tendrá acceso al almacenamiento rápido en caché en el modelo Claude 3.5 Sonnet v2.

El almacenamiento rápido en caché es una función opcional que puede utilizar con los modelos compatibles en Amazon Bedrock para reducir la latencia de la respuesta a las inferencias y los costes de los tokens de entrada. Al añadir partes del contexto a una caché, el modelo puede aprovechar la caché para evitar el recálculo de las entradas, lo que permite a Bedrock compartir los ahorros de cómputo y reducir las latencias de respuesta.

El almacenamiento rápido en caché puede ser útil cuando tienes cargas de trabajo con contextos largos y repetitivos que se reutilizan con frecuencia para múltiples consultas. Por ejemplo, si tienes un chatbot en el que los usuarios pueden subir documentos y hacer preguntas sobre ellos, el modelo puede tardar mucho tiempo en procesar el documento cada vez que el usuario introduce información. Con el almacenamiento rápido en caché, puede almacenar en caché el documento para que las futuras consultas que contengan el documento no tengan que volver a procesarlo.

Al utilizar el almacenamiento rápido en caché, se te cobrará una tarifa reducida por los tokens leídos desde la memoria caché. Según el modelo, los tokens escritos en la memoria caché pueden cobrarse a una tasa superior a la de los tokens de entrada no almacenados en caché. Los tokens que no se lean o escriban en la memoria caché se cobran según la tarifa de entrada estándar para ese modelo. Para obtener más información, consulte la página de Precios de Amazon Bedrock.

Funcionamiento

Si opta por utilizar el almacenamiento rápido en caché, Amazon Bedrock crea una caché compuesta por puntos de control de caché. Se trata de marcadores que definen la subsección contigua de la solicitud que desea almacenar en caché (a menudo denominada prefijo de solicitud). Estos prefijos de solicitud deben ser estáticos entre las solicitudes; si se modifica el prefijo de la línea de comandos en las solicitudes posteriores, se producirá una pérdida de memoria caché.

Los puntos de control de caché tienen un número mínimo y máximo de símbolos, según el modelo específico que utilices. Solo puedes crear un punto de control de caché si el prefijo total de tu mensaje cumple con el número mínimo de fichas. Por ejemplo, el modelo Anthropic Claude 3.7 Sonnet requiere al menos 1024 fichas por punto de control de caché. Esto significa que el primer punto de control de la caché se puede definir después de 1024 fichas y el segundo punto de control de la memoria caché se puede definir después de las 2048 fichas. Si intentas añadir un punto de control de caché antes de alcanzar el número mínimo de fichas, la inferencia seguirá siendo correcta, pero tu prefijo no se almacenará en caché. La caché tiene un tiempo de vida (TTL) de cinco minutos, que se restablece cada vez que se accede correctamente a la caché. Durante este período, se conserva el contexto de la memoria caché. Si no se produce ningún acceso a la memoria caché en la ventana TTL, la memoria caché caduca.

Puede utilizar el almacenamiento rápido en caché cada vez que obtenga inferencias de modelos en Amazon Bedrock para los modelos compatibles. El almacenamiento rápido en caché es compatible con las siguientes funciones de Amazon Bedrock:

Converse y ConverseStream APIs: Puede mantener una conversación con un modelo en el que especifique los puntos de control de la memoria caché en sus solicitudes.
InvokeModel y InvokeModelWithResponseStream APIs: Puede enviar solicitudes de solicitud únicas en las que se habilite el almacenamiento en caché de solicitudes y se especifiquen los puntos de control de la memoria caché.
Almacenamiento rápido en caché con inferencia entre regiones: El almacenamiento rápido en caché se puede utilizar junto con la inferencia entre regiones. La inferencia entre regiones selecciona automáticamente la AWS región óptima dentro de su geografía para atender su solicitud de inferencia, lo que maximiza los recursos disponibles y la disponibilidad del modelo. En momentos de alta demanda, estas optimizaciones pueden provocar un aumento de las escrituras en caché.
Gestión rápida de Amazon Bedrock: Al crear o modificar una solicitud, puede optar por habilitar el almacenamiento en caché de la solicitud. Según el modelo, puede almacenar en caché las indicaciones del sistema, las instrucciones del sistema y los mensajes (del usuario y del asistente). También puede optar por deshabilitar el almacenamiento en caché de los mensajes.

Le APIs proporcionan la mayor flexibilidad y un control granular sobre la caché de solicitudes. Puede establecer un punto de control de caché individual dentro de sus indicaciones. Puedes añadirlo a la caché creando más puntos de control de caché, hasta el número máximo de puntos de control de caché permitido para el modelo específico. Para obtener más información, consulte Modelos, regiones y límites compatibles.

Modelos, regiones y límites compatibles

En la siguiente tabla se enumeran los modelos compatibles junto con sus mínimos de token, el número máximo de puntos de control de caché y los campos que permiten los puntos de control de caché.

Nombre de modelo	ID del modelo	Tipo de lanzamiento	Número mínimo de fichas por punto de control de caché	Número máximo de puntos de control de caché por solicitud	Campos que aceptan puntos de control de caché rápidos
Claude 3 Opus4.1	anthropic.claude-opus-4-1-20250805-v 1:0	Disponibilidad general	1 024	4	`sistema`, `mensajes` y `tools`
Claude Opus 4	anthropic.claude-opus-4-20250514-v 1:0	Disponibilidad general	1 024	4	`sistema`, `mensajes` y `tools`
Claude Sonnet 4	anthropic.claude-sonnet-4-20250514-v 1:0	Disponibilidad general	1 024	4	`sistema`, `mensajes` y `tools`
Claude 3.7 Sonnet	anthropic.claude-3-7-sonnet-20250219-v 1:0	Disponibilidad general	1 024	4	`sistema`, `mensajes` y `tools`
Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	Disponibilidad general	2048	4	`sistema`, `mensajes` y `tools`
Claude 3.5 Sonnet v2	anthropic.claude-3-5-sonnet-20241022-v2:0	Vista previa	1 024	4	`sistema`, `mensajes` y `tools`
Amazon Nova Micro	amazona. nova-micro-v1:0	Disponible de forma general	^{1K 1}	4	`sistema` y `mensajes`
Amazon Nova Lite	amazon. nova-lite-v1:0	Disponible de forma general	^{1K 1}	4	^{`sistema` y `mensajes` 2}
Amazon Nova Pro	amazon. nova-pro-v1:0	Disponible de forma general	^{1K 1}	4	^{`sistema` y `mensajes` 2}
Amazon Nova Premier	amazon. nova-premier-v1:0	Disponible de forma general	^{1K 1}	4	^{`sistema` y `mensajes` 2}

1: Los Amazon Nova modelos admiten un número máximo de 20 000 fichas para un rápido almacenamiento en caché.

2: El almacenamiento en caché de mensajes de texto se utiliza principalmente para mensajes de texto.

Amazon Novaofrece un almacenamiento automático de mensajes en caché para todos los mensajes de texto, incluidos los mensajes. User System Este mecanismo puede proporcionar beneficios de latencia cuando las solicitudes comienzan con partes repetitivas, incluso sin una configuración explícita. Sin embargo, para ahorrar costos y garantizar beneficios de rendimiento más consistentes, recomendamos optar por el almacenamiento en caché de solicitudes explícitas.

Administración de caché simplificada para los modelos Claude

Para los modelos Claude, Amazon Bedrock ofrece un enfoque simplificado de la administración de la memoria caché que reduce la complejidad de colocar manualmente los puntos de control de la memoria caché. En lugar de tener que especificar las ubicaciones exactas de los puntos de control de la memoria caché, puede utilizar la administración automática de la memoria caché con un único punto de interrupción al final del contenido estático.

Al habilitar la administración simplificada de la memoria caché, el sistema comprueba automáticamente si hay visitas a la memoria caché en los límites de los bloques de contenido anteriores y analiza hasta aproximadamente 20 bloques de contenido desde el punto de interrupción especificado. Esto permite que el modelo encuentre el prefijo coincidente más largo de la memoria caché sin necesidad de que usted prediga las ubicaciones óptimas de los puntos de control. Para usarlo, coloca un único punto de control de caché al final del contenido estático, antes de cualquier contenido dinámico o variable. El sistema encontrará automáticamente la caché que mejor coincida.

Para un control más detallado, puede seguir utilizando varios puntos de control de caché (hasta 4 para los modelos Claude) para especificar los límites exactos de la caché. Debe utilizar varios puntos de control de caché si está almacenando en caché secciones que cambian con diferentes frecuencias o si desea tener más control sobre qué es exactamente lo que se almacena en caché.

importante

La comprobación automática de prefijos solo examina aproximadamente 20 bloques de contenido de tu punto de control de caché. Si tu contenido estático se extiende más allá de este rango, considera usar varios puntos de control de caché o reestructurar el indicador para colocar dentro de este rango el contenido que se reutiliza con más frecuencia.

Introducción

En las siguientes secciones se muestra una breve descripción de cómo utilizar la función de almacenamiento rápido en caché para cada método de interacción con los modelos a través de Amazon Bedrock.

La API de Converse ofrece opciones avanzadas y flexibles para implementar el almacenamiento rápido en caché en conversaciones de varios turnos. Para obtener más información sobre los requisitos de prontitud para cada modelo, consulte la sección anterior. Modelos, regiones y límites compatibles

Ejemplo de solicitud

Los siguientes ejemplos muestran un punto de control de caché establecido en los tools campos messagessystem, o de una solicitud a la Converse API. Puedes colocar puntos de control en cualquiera de estas ubicaciones para una solicitud determinada. Por ejemplo, si envía una solicitud al modelo Claude 3.5 Sonnet v2, puede colocar dos puntos de control de cachémessages, uno y otro. system tools Para obtener información más detallada y ejemplos de cómo estructurar y enviar solicitudes de Converse API, consulte. Mantén una conversación con las operaciones de la Converse API

messages checkpoints

En este ejemplo, el primer image campo proporciona una imagen al modelo y el segundo text campo pide al modelo que analice la imagen. Siempre que el número de fichas que preceden a la del cachePoint content objeto cumpla con el número mínimo de fichas del modelo, se crea un punto de control de la memoria caché.


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

En este ejemplo, debe indicar el mensaje del sistema en el text campo. Además, puede añadir un cachePoint campo para almacenar en caché la solicitud del sistema.


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints

En este ejemplo, debe proporcionar la definición de la herramienta en el toolSpec campo. (Como alternativa, puede llamar a una herramienta que haya definido previamente. Para obtener más información, consulteLlama a una herramienta con la Converse API.) Después, puede añadir un cachePoint campo para almacenar en caché la herramienta.


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

La respuesta del modelo de la Converse API incluye dos campos nuevos que son específicos para solicitar el almacenamiento en caché. CacheWriteInputTokensLos valores CacheReadInputTokens y indican cuántos tokens se han leído de la caché y cuántos se han escrito en ella debido a una solicitud anterior. Estos son valores que Amazon Bedrock le cobra, a una tarifa inferior al costo de la inferencia completa del modelo.

El almacenamiento rápido en caché está habilitado de forma predeterminada cuando llamas a la InvokeModelAPI. Puedes establecer puntos de control de caché en cualquier punto del cuerpo de la solicitud, de forma similar al ejemplo anterior de la Converse API.

Anthropic Claude

En el siguiente ejemplo, se muestra cómo estructurar el cuerpo de la InvokeModel solicitud para el modelo Anthropic Claude 3.5 Sonnet v2. Tenga en cuenta que el formato y los campos exactos del cuerpo de InvokeModel las solicitudes pueden variar según el modelo que elija. Para ver el formato y el contenido de los órganos de solicitud y respuesta para los diferentes modelos, consulteParámetros de solicitud de inferencia y campos de respuesta para los modelos fundacionales.


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Amazon Nova

El siguiente ejemplo muestra cómo estructurar el cuerpo de la InvokeModel solicitud para el Amazon Nova modelo. Tenga en cuenta que el formato y los campos exactos del cuerpo de InvokeModel las solicitudes pueden variar según el modelo que elija. Para ver el formato y el contenido de los órganos de solicitud y respuesta para los diferentes modelos, consulteParámetros de solicitud de inferencia y campos de respuesta para los modelos fundacionales.


{
    "system": [{
        "text": "Reply Concisely"
    }],
    "messages": [{
        "role": "user",
        "content": [{
            "text": "Describe the best way to learn programming"
        },
        {
            "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
            "cachePoint": {
                "type": "default"
            }
        }]
    }],
    "inferenceConfig": {
        "maxTokens": 300,
        "topP": 0.1,
        "topK": 20,
        "temperature": 0.3
    }
}

Para obtener más información sobre el envío de una InvokeModel solicitud, consulteEnvíe un único mensaje con InvokeModel.

En una zona de chat de la consola de Amazon Bedrock, puede activar la opción de almacenamiento rápido en caché y Amazon Bedrock creará automáticamente puntos de control de caché por usted.

Sigue las instrucciones Generación de respuestas en la consola mediante áreas de juego para empezar a dar instrucciones en un parque infantil de Amazon Bedrock. En los modelos compatibles, el almacenamiento rápido en caché se activa automáticamente en el patio de recreo. Sin embargo, si no es así, haz lo siguiente para activar el almacenamiento rápido en caché:

En el panel lateral izquierdo, abre el menú de configuraciones.
Activa la opción de almacenamiento en caché de mensajes.
Ejecuta tus indicaciones.

Cuando las respuestas combinadas de entrada y modelo alcancen la cantidad mínima requerida de tokens para un punto de control (que varía según el modelo), Amazon Bedrock crea automáticamente el primer punto de control de caché para usted. A medida que sigas chateando, cada vez que alcances el número mínimo de fichas, se crea un nuevo punto de control, hasta el número máximo de puntos de control permitido para el modelo. Para ver los puntos de control de la caché en cualquier momento, selecciona Ver los puntos de control de la caché junto a la opción de almacenamiento rápido en caché, como se muestra en la siguiente captura de pantalla.

Conmutador de interfaz de usuario para un rápido almacenamiento en caché en un área de juegos de texto de Amazon Bedrock.

Puede ver cuántos tokens se leen y escriben en la caché debido a cada interacción con el modelo viendo la ventana emergente de métricas de almacenamiento en caché ( ) en las respuestas del campo de reproducción.

Cuadro de métricas de almacenamiento en caché que muestra el número de fichas leídas y escritas en la caché.

Si desactivas la opción de almacenamiento en caché mientras estás en medio de una conversación, podrás seguir chateando con la modelo.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de la característica Uso de computadora para completar una respuesta del modelo

Inferencia por lotes: procesa múltiples solicitudes