仕組みサポートされているモデル、リージョン、制限 Claude モデルのキャッシュ管理の簡素化はじめに

モデル推論を高速化するためのプロンプトキャッシュ

注記

Amazon Bedrock プロンプトキャッシュは、Claude 3.7 Sonnet、Claude 3.5 Haiku、、Amazon Nova Micro、Amazon Nova LiteAmazon Nova Pro、およびで一般利用可能ですAmazon Nova Premier。プロンプトキャッシュプレビュー中に Claude 3.5 Sonnet v2 へのアクセスを許可されたお客様はアクセスを保持しますが、Claude 3.5 Sonnet v2 モデルでプロンプトキャッシュへのアクセスは許可されません。

プロンプトキャッシュは、Amazon Bedrock でサポートされているモデルで使用できるオプション機能であり、推論レスポンスのレイテンシーと入力トークンのコストを削減できます。コンテキストの一部をキャッシュに追加することで、モデルはキャッシュを活用して入力の再計算をスキップできるため、Bedrock はコンピューティングの節約を共有し、レスポンスのレイテンシーを短縮できます。

プロンプトキャッシュは、複数のクエリで頻繁に再利用されるコンテキストが長く繰り返されるワークロードがある場合に役立ちます。たとえば、ユーザーがドキュメントをアップロードして質問できるチャットボットがある場合、ユーザーが入力するたびにモデルがドキュメントを処理するのに時間がかかることがあります。プロンプトキャッシュを使用すると、ドキュメントをキャッシュして、そのドキュメントを含む将来のクエリを再処理する必要がなくなります。

プロンプトキャッシュを使用する場合、キャッシュから読み取られたトークンに対して割引料金で課金されます。モデルによっては、キャッシュに書き込まれたトークンは、キャッシュされていない入力トークンよりも高いレートで課金される場合があります。キャッシュとの間で読み書きされないトークンは、そのモデルの標準入力トークンレートで課金されます。詳細については、「Amazon Bedrock の料金ページ」を参照してください。

仕組み

プロンプトキャッシュを使用することを選択した場合、Amazon Bedrock はキャッシュチェックポイントで構成されるキャッシュを作成します。これらは、キャッシュするプロンプトの連続するサブセクションを定義するマーカーです (多くの場合、プロンプトプレフィックスと呼ばれます）。これらのプロンプトプレフィックスはリクエスト間で静的である必要があります。後続のリクエストでプロンプトプレフィックスを変更すると、キャッシュミスが発生します。

キャッシュチェックポイントには、使用している特定のモデルに応じて、トークンの最小数と最大数があります。キャッシュチェックポイントは、合計プロンプトプレフィックスがトークンの最小数を満たしている場合にのみ作成できます。たとえば、Anthropic Claude 3.7 Sonnet モデルでは、キャッシュチェックポイントごとに少なくとも 1,024 トークンが必要です。つまり、最初のキャッシュチェックポイントは 1,024 トークンの後に定義でき、2 番目のキャッシュチェックポイントは 2,048 トークンの後に定義できます。最小トークン数を満たす前にキャッシュチェックポイントを追加しようとすると、推論は成功しますが、プレフィックスはキャッシュされません。キャッシュには 5 分の有効期限 (TTL) があり、キャッシュヒットが成功するたびにリセットされます。この期間中、キャッシュ内のコンテキストは保持されます。TTL ウィンドウ内でキャッシュヒットが発生しない場合、キャッシュは期限切れになります。

プロンプトキャッシュは、サポートされているモデルの Amazon Bedrock でモデル推論を取得するたびに使用できます。プロンプトキャッシュは、次の Amazon Bedrock 機能でサポートされています。

Converse API と ConverseStream APIs: プロンプトでキャッシュチェックポイントを指定するモデルと会話を続けることができます。
InvokeModel API と InvokeModelWithResponseStream APIs: プロンプトキャッシュを有効にしてキャッシュチェックポイントを指定する単一のプロンプトリクエストを送信できます。
クロスリージョン推論を使用したプロンプトキャッシュ: プロンプトキャッシュは、クロスリージョン推論と組み合わせて使用できます。クロスリージョン推論は、推論リクエストを処理するのに最適な AWS リージョンを自動的に選択し、利用可能なリソースとモデルの可用性を最大化します。需要が高い場合、これらの最適化によりキャッシュ書き込みが増加する可能性があります。
Amazon Bedrock プロンプト管理: プロンプトを作成または変更するときに、プロンプトキャッシュを有効にするように選択できます。モデルに応じて、システムプロンプト、システム手順、メッセージ (ユーザーとアシスタント) をキャッシュできます。プロンプトキャッシュを無効にすることもできます。

APIs を使用すると、プロンプトキャッシュを最も柔軟かつきめ細かく制御できます。プロンプト内で個々のキャッシュチェックポイントを設定できます。キャッシュに追加するには、特定のモデルで許可されるキャッシュチェックポイントの最大数まで、キャッシュチェックポイントをさらに作成します。詳細については、「サポートされているモデル、リージョン、制限」を参照してください。

サポートされているモデル、リージョン、制限

次の表に、サポートされているモデルとそのトークンの最小値、キャッシュチェックポイントの最大数、キャッシュチェックポイントを許可するフィールドを示します。

モデル名	モデル ID	リリースタイプ	キャッシュチェックポイントあたりのトークンの最小数	リクエストあたりのキャッシュチェックポイントの最大数	プロンプトキャッシュチェックポイントを受け入れるフィールド
Claude 3 Opus 4.1	anthropic.claude-opus-4-1-20250805-v1:0	一般提供	1,024	4	「system」、「messages」、「tools」
Claude Opus 4	anthropic.claude-opus-4-20250514-v1:0	一般提供	1,024	4	「system」、「messages」、「tools」
Claude Sonnet 4	anthropic.claude-sonnet-4-20250514-v1:0	一般提供	1,024	4	「system」、「messages」、「tools」
Claude 3.7 Sonnet	anthropic.claude-3-7-sonnet-20250219-v1:0	一般提供	1,024	4	「system」、「messages」、「tools」
Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	一般提供	2,048	4	「system」、「messages」、「tools」
Claude 3.5 Sonnet v2	anthropic.claude-3-5-sonnet-20241022-v2:0	プレビュー	1,024	4	「system」、「messages」、「tools」
Amazon Nova Micro	amazon.nova-micro-v1:0	一般提供	1K¹	4	「system」と「messages」
Amazon Nova Lite	amazon.nova-lite-v1:0	一般提供	1K¹	4	「system」と「messages^」2
Amazon Nova Pro	amazon.nova-pro-v1:0	一般提供	1K¹	4	「system」と「messages^」2
Amazon Nova Premier	amazon.nova-premier-v1:0	一般提供	1K¹	4	「system」と「messages^」2

1: Amazon Novaモデルは、プロンプトキャッシュ用に最大 20K トークンをサポートします。

2: プロンプトキャッシュは主にテキストプロンプト用です。

Amazon Nova には、 Userおよび System メッセージを含むすべてのテキストプロンプトの自動プロンプトキャッシュが用意されています。このメカニズムは、明示的な設定がない場合でも、プロンプトが反復的な部分で始まる場合、レイテンシーの利点を提供することができます。ただし、コスト削減をロック解除し、より一貫したパフォーマンス上の利点を確保するために、明示的なプロンプトキャッシュにオプトインすることをお勧めします。

Claude モデルのキャッシュ管理の簡素化

Claude モデルの場合、Amazon Bedrock はキャッシュ管理のアプローチを簡素化し、キャッシュチェックポイントを手動で配置する複雑さを軽減します。正確なキャッシュチェックポイントの場所を指定する代わりに、静的コンテンツの最後に 1 つのブレークポイントで自動キャッシュ管理を使用できます。

簡易キャッシュ管理を有効にすると、システムは以前のコンテンツブロックの境界でキャッシュヒットを自動的にチェックし、指定したブレークポイントから最大約 20 個のコンテンツブロックを調べます。これにより、モデルは最適なチェックポイントの場所を予測することなく、キャッシュから最も長い一致するプレフィックスを見つけることができます。これを使用するには、動的または可変コンテンツの前に、静的コンテンツの最後に 1 つのキャッシュチェックポイントを配置します。システムは最適なキャッシュ一致を自動的に見つけます。

よりきめ細かな制御のために、複数のキャッシュチェックポイント (Claude モデルの場合は最大 4 つ) を使用して正確なキャッシュ境界を指定できます。異なる頻度で変化するセクションをキャッシュする場合や、キャッシュされるものを正確に制御したい場合は、複数のキャッシュチェックポイントを使用する必要があります。

重要

自動プレフィックスチェックは、キャッシュチェックポイントから約 20 個のコンテンツブロックのみをさかのぼります。静的コンテンツがこの範囲を超える場合は、複数のキャッシュチェックポイントを使用するか、プロンプトを再構築して、最も頻繁に再利用されるコンテンツをこの範囲内に配置することを検討してください。

はじめに

以下のセクションでは、Amazon Bedrock を介してモデルを操作する各メソッドでプロンプトキャッシュ機能を使用する方法の簡単な概要を示します。

Converse API には、複数ターンの会話でプロンプトキャッシュを実装するための高度で柔軟なオプションが用意されています。各モデルのプロンプト要件の詳細については、前のセクションを参照してくださいサポートされているモデル、リージョン、制限。

リクエストの例

次の例は、 Converse API へのリクエストの messages、system、または toolsフィールドに設定されたキャッシュチェックポイントを示しています。特定のリクエストについて、これらの場所のいずれかにチェックポイントを配置できます。たとえば、Claude 3.5 Sonnet v2 モデルにリクエストを送信する場合、2 つのキャッシュチェックポイントをにmessages、1 つのキャッシュチェックポイントをにsystem、もう 1 つのキャッシュチェックポイントをに配置することができますtools。Converse API リクエストの構造化と送信の詳細については、「」を参照してくださいConverse API オペレーションとの会話を実行する。

messages checkpoints

この例では、最初のimageフィールドはモデルにイメージを提供し、2 番目のtextフィールドはモデルにイメージの分析を求めます。content オブジェクトcachePointのの前にあるトークンの数がモデルの最小トークン数を満たす限り、キャッシュチェックポイントが作成されます。


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

この例では、 textフィールドにシステムプロンプトを指定します。さらに、システムプロンプトをキャッシュするcachePointフィールドを追加できます。


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints

この例では、 toolSpecフィールドにツール定義を指定します。（または、以前に定義したツールを呼び出すこともできます。詳細については、「」を参照してくださいConverse API を使用してツールを呼び出す。）その後、ツールをキャッシュするcachePointフィールドを追加できます。


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

Converse API からのモデルレスポンスには、プロンプトキャッシュに固有の 2 つの新しいフィールドが含まれています。CacheReadInputTokens とのCacheWriteInputTokens値は、キャッシュから読み取られたトークンの数と、前のリクエストのためにキャッシュに書き込まれたトークンの数を示します。これらは、Amazon Bedrock によって課金される値で、完全なモデル推論のコストよりも低いレートです。

InvokeModel API を呼び出すと、プロンプトキャッシュがデフォルトで有効になります。Converse API の前の例と同様に、キャッシュチェックポイントはリクエスト本文の任意の時点で設定できます。

Anthropic Claude

次の例は、AnthropicClaude 3.5 Sonnetv2 モデルの InvokeModel リクエストの本文を構築する方法を示しています。InvokeModel リクエストの本文の正確な形式とフィールドは、選択したモデルによって異なる場合があります。さまざまなモデルのリクエスト本文とレスポンス本文の形式と内容を確認するには、「」を参照してくださいInference request parameters and response fields for foundation models。


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Amazon Nova

次の例は、Amazon Novaモデルの InvokeModel リクエストの本文を構築する方法を示しています。InvokeModel リクエストの本文の正確な形式とフィールドは、選択したモデルによって異なる場合があります。さまざまなモデルのリクエスト本文とレスポンス本文の形式と内容を確認するには、「」を参照してくださいInference request parameters and response fields for foundation models。


{
    "system": [{
        "text": "Reply Concisely"
    }],
    "messages": [{
        "role": "user",
        "content": [{
            "text": "Describe the best way to learn programming"
        },
        {
            "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
            "cachePoint": {
                "type": "default"
            }
        }]
    }],
    "inferenceConfig": {
        "maxTokens": 300,
        "topP": 0.1,
        "topK": 20,
        "temperature": 0.3
    }
}

InvokeModel リクエストの送信の詳細については、「」を参照してくださいInvokeModel で 1 つのプロンプトを送信する。

Amazon Bedrock コンソールのチャットプレイグラウンドで、プロンプトキャッシュオプションを有効にすると、Amazon Bedrock が自動的にキャッシュチェックポイントを作成します。

Amazon Bedrock プレイグラウンドでプロンプトを開始するGenerate responses in the console using playgroundsには、「」の手順に従います。サポートされているモデルでは、プレイグラウンドでプロンプトキャッシュが自動的にオンになります。ただし、そうでない場合は、次の手順を実行してプロンプトキャッシュを有効にします。

左側のパネルで、設定メニューを開きます。
プロンプトキャッシュの切り替えをオンにします。
プロンプトを実行します。

入力レスポンスとモデルレスポンスの組み合わせがチェックポイントに必要なトークンの最小数 (モデルによって異なります) に達すると、Amazon Bedrock は最初のキャッシュチェックポイントを自動的に作成します。チャットを続けると、トークンの最小数に達するたびに、モデルで許可されるチェックポイントの最大数まで、新しいチェックポイントが作成されます。次のスクリーンショットに示すように、プロンプトキャッシュトグルの横にあるキャッシュチェックポイントの表示を選択すると、キャッシュチェックポイントをいつでも表示できます。

Amazon Bedrock テキストプレイグラウンドでのプロンプトキャッシュの UI トグル。

プレイグラウンドレスポンスでキャッシュメトリクスポップアップ ( ) を表示することで、モデルとのやり取りによってキャッシュとの間で読み書きされているトークンの数を表示できます。

キャッシュとの間で読み書きされたトークンの数を示すキャッシュメトリクスボックス。

会話の途中でプロンプトキャッシュの切り替えをオフにすると、モデルとのチャットを続行できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Computer Use ツールを使用してモデルレスポンスを完了する

バッチ推論: 複数のプロンプトを処理する