検出モードによるガードレール評価例: 検出モードを使用してコンテンツフィルターを評価する

Amazon Bedrock ガードレールによって検出された有害なコンテンツを処理するためのオプション

Amazon Bedrock ガードレールがプロンプト (inputAction) とレスポンス () で有害なコンテンツを検出したときに実行時に実行するアクションを設定できますoutputAction。

ガードレールフィルタリングポリシーは、モデルの入力とレスポンスで有害なコンテンツが検出された場合の以下のアクションをサポートします。

ブロック – コンテンツをブロックし、ブロックされたメッセージングに置き換えます。
マスク – コンテンツを匿名化し、識別子タグ ( {NAME}やなど) に置き換えます{EMAIL}。

このオプションは、機密情報フィルターでのみ使用できます。詳細については、「機密情報フィルターを使用して会話から PII を削除する」を参照してください。
検出 – 何も実行しませんが、ガードレールがトレースレスポンスで検出したものを返します。このオプションは検出モードと呼ばれ、ガードレールが期待どおりに動作しているかどうかを評価するのに役立ちます。

検出モードによるガードレール評価

Amazon Bedrock ガードレールポリシーは検出モードをサポートしています。これにより、アクション (コンテンツのブロックなど) を適用せずにガードレールのパフォーマンスを評価できます。

検出モードを使用すると、次の利点があります。

カスタマーエクスペリエンスに影響を与えずに、ガードレールのポリシーのさまざまな組み合わせと長所をテストします。
誤検出や否定を分析し、それに応じてポリシー設定を調整します。
ガードレールは、正常に動作することを確認した後にのみデプロイします。

例: 検出モードを使用してコンテンツフィルターを評価する

たとえば、コンテンツフィルターの強度がのポリシーを設定するとしますHIGH。この設定に基づいて、ガードレールは評価LOWでの信頼度を返した場合でもコンテンツをブロックします。

この動作を理解する (およびアプリケーションが想定していないコンテンツをブロックしないようにする) には、ポリシーアクションをとして設定できますNONE。トレースレスポンスは次のようになります。


{
    "assessments": [{
        "contentPolicy": {
            "filters": [{
                "action": "NONE",
                "confidence": "LOW",
                "detected": true,
                "filterStrength": "HIGH",
                "type": "VIOLENCE"
            }]
        }
    }]
}

これにより、ガードレール評価をプレビューし、 VIOLENCEが検出されたことを確認できますが (true）、に設定したためアクションは実行されませんでしたNONE。

そのテキストをブロックしない場合は、フィルター強度を MEDIUMまたはに調整LOWし、評価をやり直すことができます。探している結果を取得したら、ポリシーアクションを BLOCKまたはに更新できますANONYMIZE。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

コンテキストグラウンディングチェックを追加する

Amazon Bedrock ガードレールに自動推論チェックを追加する