Amazon Bedrock ガードレールによって検出された有害なコンテンツを処理するためのオプション - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock ガードレールによって検出された有害なコンテンツを処理するためのオプション

Amazon Bedrock ガードレールがプロンプト (inputAction) とレスポンス () で有害なコンテンツを検出したときに実行時に実行するアクションを設定できますoutputAction

ガードレールフィルタリングポリシーは、モデルの入力とレスポンスで有害なコンテンツが検出された場合の以下のアクションをサポートします。

  • ブロック – コンテンツをブロックし、ブロックされたメッセージングに置き換えます。

  • マスク – コンテンツを匿名化し、識別子タグ ( {NAME}や など) に置き換えます{EMAIL}

    このオプションは、機密情報フィルターでのみ使用できます。詳細については、「機密情報フィルターを使用して会話から PII を削除する」を参照してください。

  • 検出 – 何も実行しませんが、ガードレールがトレースレスポンスで検出したものを返します。このオプションは検出モードと呼ばれ、ガードレールが期待どおりに動作しているかどうかを評価するのに役立ちます。

検出モードによるガードレール評価

Amazon Bedrock ガードレールポリシーは検出モードをサポートしています。これにより、アクション (コンテンツのブロックなど) を適用せずにガードレールのパフォーマンスを評価できます。

検出モードを使用すると、次の利点があります。

  • カスタマーエクスペリエンスに影響を与えずに、ガードレールのポリシーのさまざまな組み合わせと長所をテストします。

  • 誤検出や否定を分析し、それに応じてポリシー設定を調整します。

  • ガードレールは、正常に動作することを確認した後にのみデプロイします。

例: 検出モードを使用してコンテンツフィルターを評価する

たとえば、コンテンツフィルターの強度が のポリシーを設定するとしますHIGH。この設定に基づいて、ガードレールは評価LOWで の信頼度を返した場合でもコンテンツをブロックします。

この動作を理解する (およびアプリケーションが想定していないコンテンツをブロックしないようにする) には、ポリシーアクションを として設定できますNONE。トレースレスポンスは次のようになります。

{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }

これにより、ガードレール評価をプレビューし、 VIOLENCEが検出されたことを確認できますが (true)、 に設定したためアクションは実行されませんでしたNONE

そのテキストをブロックしない場合は、フィルター強度を MEDIUMまたは に調整LOWし、評価をやり直すことができます。探している結果を取得したら、ポリシーアクションを BLOCKまたは に更新できますANONYMIZE