コンテンツフィルターを使用して有害な単語や会話をブロックする

Amazon Bedrock ガードレールは、有害なユーザー入力とモデル生成出力を自然言語で検出してフィルタリングするのに役立つコンテンツフィルターをサポートしています。コンテンツフィルターは、次のカテゴリでサポートされています。

憎しみ

アイデンティティ (人種、民族、性別、宗教、性的指向、能力、国籍など) に基づいて個人またはグループを差別、批判、侮辱、非人道的な表現をする入力プロンプトとモデルレスポンスについて説明します。

侮辱

言語の侮辱、侮辱、嘲笑、侮辱、軽辱などの入力プロンプトとモデルレスポンスについて説明します。この種の発言は、「いじめ」とも呼ばれます。

セクシャル

身体部位、身体特性、または性別への直接的または間接的な参照を使用して、性的関心、活動、または覚醒を示す入力プロンプトとモデルレスポンスについて説明します。

暴力

入力プロンプトとモデルレスポンスについて説明します。これには、人、グループ、またはモノに対する肉体的な苦痛、傷、または損傷を与えることに対する賛美、または脅威が含まれます。

不正行為

犯罪活動への関与、人、グループ、機関への危害、詐欺、または利用に関する情報を求める、または提供する入力プロンプトとモデルレスポンスについて説明します。

ガードレールのコンテンツフィルターを設定する

AWS Management Console または Amazon Bedrock API を使用して、ガードレールのコンテンツフィルターを設定できます。

Console

Amazon Bedrock コンソールを使用するアクセス許可を持つ IAM ID AWS Management Console を使用してにサインインします。次に、https://console.aws.amazon.com/bedrock で Amazon Bedrock コンソールを開きます。
左側のナビゲーションペインからガードレールを選択し、ガードレールの作成を選択します。
ガードレールの詳細を指定するページでは、以下を実行します。
1. [ガードレールの詳細] セクションで、ガードレールの [名前] とオプションの [説明] に入力します。
2. ブロックされたプロンプトのメッセージングには、ガードレールが適用されたときに表示されるメッセージを入力します。レスポンスに同じブロックメッセージを適用するチェックボックスをオンにして、ガードレールがレスポンスに適用されるときに同じメッセージを使用します。
3. （オプション) ガードレールのクロスリージョン推論を有効にするには、クロスリージョン推論を展開し、ガードレールのクロスリージョン推論を有効にするを選択します。ガードレール推論リクエストをルーティングできる送信先 AWS リージョンを定義するガードレールプロファイルを選択します。
4. （オプション) デフォルトでは、ガードレールはで暗号化されます AWS マネージドキー。独自のカスタマーマネージド KMS キーを使用するには、KMS キーの選択を展開し、暗号化設定をカスタマイズ (詳細） チェックボックスを選択します。
  
  既存の AWS KMS キーを選択するか、キーの作成を選択して新しい AWS KMS キーを作成できます。
5. （オプション) ガードレールにタグを追加するには、タグを展開します。次に、定義したタグごとに新しいタグを追加するを選択します。
  
  詳細については、「Amazon Bedrock リソースにタグ付け」を参照してください。
6. [Next] (次へ) を選択します。
コンテンツフィルターの設定ページで、以下コンテンツフィルターを使用して有害な単語や会話をブロックするを実行して、で定義されたカテゴリに関連するコンテンツをどの程度フィルタリングするかを設定します。
1. 「有害なカテゴリを設定する」フィルターを選択します。テキストまたはイメージを選択して、モデルへのプロンプトまたはレスポンスからテキストまたはイメージコンテンツをフィルタリングします。各カテゴリに適用するフィルターのレベルには、なし、低、中、または高を選択します。プロンプトまたはレスポンスに対して異なるフィルターレベルを持つように選択できます。有害なカテゴリのプロンプト攻撃のフィルターを選択できます。ユーザーがモデルに提供するプロンプトに対して、各フィルターの厳格度レベルを設定します。
2. ブロックまたは検出 (アクションなし） を選択して、プロンプトとレスポンスで有害なコンテンツを検出したときにガードレールが実行するアクションを決定します。
  
  詳細については、「Amazon Bedrock ガードレールによって検出された有害なコンテンツを処理するためのオプション」を参照してください。
3. しきい値を設定する で、各カテゴリに適用するフィルターのレベルに「なし」、「低」、「中」、または「高」を選択します。
  
  プロンプトとレスポンスに異なるフィルターレベルを設定することもできます。
4. コンテンツフィルター階層で、ガードレールでテキストベースのプロンプトとレスポンスをフィルタリングするために使用する保護階層を選択します。詳細については、「ガードレールポリシーの保護階層」を参照してください。
5. 次へを選択して必要に応じて他のポリシーを設定するか、スキップして確認して作成し、ガードレールの作成を完了します。
ガードレールの設定を確認します。
1. 変更するセクションで [編集] を選択します。
2. ポリシーの設定が完了したら、作成を選択してガードレールを作成します。

API

CreateGuardrail リクエストを送信して、ガードレールのコンテンツフィルターを設定します。リクエストの形式は次のとおりです。


POST /guardrails HTTP/1.1
Content-type: application/json

{
   "blockedInputMessaging": "string",
   "blockedOutputsMessaging": "string",
   "contentPolicyConfig": { 
      "filtersConfig": [ 
         {
            "inputAction": "BLOCK | NONE",
            "inputModalities": [ "TEXT" ], 
            "inputStrength": "NONE | LOW | MEDIUM | HIGH",
            "outputStrength": "NONE | LOW | MEDIUM | HIGH",
            "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT"
         }
      ],
      "tierConfig": { 
         "tierName": "CLASSIC | STANDARD"
      }
   },
   "crossRegionConfig": { 
      "guardrailProfileIdentifier": "string"
   },
   "description": "string",
   "name": "string"
}

ガードレールの nameと description を指定します。
blockedInputMessaging および blockedOutputsMessaging フィールドでプロンプトまたはモデルレスポンスをガードレールが正常にブロックしたときのメッセージを指定します。
contentPolicyConfig オブジェクトで使用できる有害なカテゴリのフィルタ強度を指定します。

filtersConfig リスト内の各項目は、有害なカテゴリに関連しています。詳細については、「コンテンツフィルターを使用して有害な単語や会話をブロックする」を参照してください。コンテンツフィルターのフィールドの詳細については、「ContentFilter」を参照してください。
- （オプション) inputActionおよびではoutputAction、プロンプトとレスポンスで有害なコンテンツを検出したときにガードレールが実行するアクションを指定します。
- （オプション) を使用するプロンプトinputActionまたはを使用するレスポンスで有害なコンテンツが検出されたときに実行するアクションを指定しますoutputAction。コンテンツをBLOCKブロックしてブロックされたメッセージングに置き換えるか、アクションを実行せずに検出情報を返すNONEかを選択します。詳細については、「Amazon Bedrock ガードレールによって検出された有害なコンテンツを処理するためのオプション」を参照してください。
- inputStrength フィールドのプロンプトと outputStrengthフィールドのモデルレスポンスのフィルターの強度を指定します。
- type フィールドにカテゴリを指定します。
（オプション) contentPolicyConfig オブジェクト内の tierConfig オブジェクトでガードレールの保護階層を指定します。オプションには、 STANDARDおよび CLASSIC 階層が含まれます。

詳細については、「ガードレールポリシーの保護階層」を参照してください。
（オプション) クロスリージョン推論を有効にするには、 crossRegionConfig オブジェクトでガードレールプロファイルを指定します。これはSTANDARD、階層を使用する場合に必要です。

レスポンス形式は次のようになります。


HTTP/1.1 202
Content-type: application/json

{
   "createdAt": "string",
   "guardrailArn": "string",
   "guardrailId": "string",
   "version": "string"
}

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

コンテンツフィルターを設定する

コンテンツフィルター (イメージ）