翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ストリーミングレスポンスの動作を設定する
はストリーミング形式でデータInvokeModelWithResponseStreamAPIを返します。これにより、結果全体を待たずにチャンク内のレスポンスにアクセスできます。ストリーミングレスポンスでガードレールを使用する場合、オペレーションには同期モードと非同期モードの 2 つのモードがあります。
同期モード
デフォルトの同期モードでは、ガードレールは設定されたポリシーをバッファリングして 1 つ以上のレスポンスチャンクに適用してから、レスポンスがユーザーに返送されます。同期処理モードでは、レスポンスチャンクにレイテンシーが発生します。これは、ガードレールのスキャンが完了するまでレスポンスが遅延することを意味します。ただし、すべてのレスポンスチャンクがガードレールによってスキャンされてからユーザーに送信されるため、精度が向上します。
非同期モード
非同期モードでは、ガードレールは、設定されたポリシーをバックグラウンドで非同期に適用しながら、応答チャンクが利用可能になるとすぐにユーザーに送信します。利点は、レスポンスチャンクはレイテンシーに影響を与えずにすぐに提供されますが、レスポンスチャンクにはガードレールのスキャンが完了するまで不適切なコンテンツが含まれている可能性があることです。不適切なコンテンツが特定されるとすぐに、後続のチャンクはガードレールによってブロックされます。
警告
モデルレスポンス内の機密情報のマスキングは、ガードレールによるモデルレスポンス内の機密コンテンツの検出とマスキングの前に、元のレスポンスがユーザーに返される可能性があるため、非同期モードで重大な影響を受ける可能性があります。したがって、このようなユースケースでは、非同期モードは推奨されません。
非同期モードの有効化
非同期モードを有効にするには、InvokeModelWithResponseStream
リクエストの amazon-bedrock-guardrailConfig
オブジェクトに streamProcessingMode
パラメータを含める必要があります。
{ "amazon-bedrock-guardrailConfig": { "streamProcessingMode": "ASYNCHRONOUS" } }
同期モードと非同期モードのトレードオフを理解することで、レイテンシーとコンテンツモデレーションの精度に関するアプリケーションの要件に基づいて適切なモードを選択できます。