콘텐츠 필터로 유해한 단어 및 대화 차단

Amazon Bedrock Guardrails는 콘텐츠 필터를 지원하여 유해한 사용자 입력 및 모델 생성 출력을 자연어로 감지하고 필터링하는 데 도움이 됩니다. 콘텐츠 필터는 다음 범주에서 지원됩니다.

증오

자격 증명(예: 인종, 민족, 성별, 종교, 성적 지향, 능력, 출신 국가)을 기반으로 개인 또는 그룹을 차별, 비판, 모욕, 거부 또는 비인간화하는 입력 프롬프트와 모델 응답을 설명합니다.

모욕

비하, 굴욕, 모의, 모욕 또는 비하하는 언어를 포함하는 입력 프롬프트와 모델 응답을 설명합니다. 이러한 유형의 표현은 괴롭힘으로도 분류됩니다.

성

신체 부위, 신체적 특성 또는 성별에 대한 직접 또는 간접 참조를 사용하여 성적 관심, 활동 또는 흥분을 나타내는 입력 프롬프트와 모델 응답을 설명합니다.

폭력

사람, 그룹 또는 사물에 신체적 통증, 부상 또는 상해를 입히는 위협이나 화려함을 포함하는 입력 프롬프트 및 모델 응답을 설명합니다.

불법 행위

범죄 활동에 참여하거나 개인, 그룹 또는 기관에 해를 끼치거나 사기를 하거나 이를 활용하는 방법에 대한 정보를 구하거나 제공하는 입력 프롬프트와 모델 응답을 설명합니다.

가드레일의 콘텐츠 필터 구성

AWS Management Console 또는 Amazon Bedrock API를 사용하여 가드레일의 콘텐츠 필터를 구성할 수 있습니다.

Console

Amazon Bedrock 콘솔을 사용할 권한이 있는 IAM 자격 증명 AWS Management Console 으로에 로그인합니다. 그런 다음 https://console.aws.amazon.com/bedrock Amazon Bedrock 콘솔을 엽니다.
왼쪽 탐색 창에서 가드레일을 선택한 다음 가드레일 생성을 선택합니다.
가드레일 세부 정보 제공 페이지에서 다음을 수행합니다.
1. 가드레일 세부 정보 섹션에서 가드레일의 이름 및 필요한 경우 설명을 제공합니다.
2. 차단된 프롬프트에 대한 메시징에 가드레일이 적용될 때 표시되는 메시지를 입력합니다. 응답에 가드레일이 적용될 때 동일한 메시지를 사용하려면 응답에 동일한 차단된 메시지 적용 확인란을 선택합니다.
3. (선택 사항) 가드레일에 대해 교차 리전 추론을 활성화하려면 교차 리전 추론을 확장한 다음 가드레일에 대해 교차 리전 추론 활성화를 선택합니다. 가드레일 추론 요청을 라우팅할 수 있는 대상 AWS 리전 을 정의하는 가드레일 프로파일을 선택합니다.
4. (선택 사항) 기본적으로 가드레일은 로 암호화됩니다 AWS 관리형 키. 자체 고객 관리형 KMS 키를 사용하려면 KMS 키 선택을 확장하고 암호화 설정 사용자 지정(고급) 확인란을 선택합니다.
  
  기존 AWS KMS 키를 선택하거나 키 생성을 선택하여 새 AWS KMS 키를 생성할 수 있습니다.
5. (선택 사항) 가드레일에 태그를 추가하려면 태그를 확장합니다. 그런 다음 정의한 각 태그에 대해 새 태그 추가를 선택합니다.
  
  자세한 내용은 Amazon Bedrock 리소스 태그 지정 단원을 참조하십시오.
6. 다음을 선택합니다.
콘텐츠 필터 구성 페이지에서 다음을 수행하여에 정의된 범주와 관련된 콘텐츠를 얼마나 강력콘텐츠 필터로 유해한 단어 및 대화 차단하게 필터링할지 설정합니다.
1. 유해한 범주 필터 구성을 선택합니다. 텍스트 및/또는 이미지를 선택하여 모델에 대한 프롬프트 또는 응답에서 텍스트 또는 이미지 콘텐츠를 필터링합니다. 각 범주에 적용할 필터링 수준에 대해 없음, 낮음, 중간 또는 높음을 선택합니다. 프롬프트 또는 응답에 대해 다른 필터 수준을 사용하도록 선택할 수 있습니다. 유해 카테고리에서 프롬프트 공격에 대한 필터를 선택할 수 있습니다. 사용자가 모델에 제공하는 프롬프트에 대해 각 필터를 얼마나 엄격하게 적용할 것인지 구성합니다.
2. 차단 또는 감지(작업 없음)를 선택하여 프롬프트 및 응답에서 유해한 콘텐츠를 감지할 때 가드레일이 수행하는 작업을 결정합니다.
  
  자세한 내용은 Amazon Bedrock Guardrails에서 감지한 유해한 콘텐츠를 처리하는 옵션 단원을 참조하십시오.
3. 임계값 설정에서 각 범주에 적용할 필터링 수준에 대해 없음, 낮음, 중간 또는 높음을 선택합니다.
  
  프롬프트와 응답에 대해 다른 필터 수준을 사용하도록 선택할 수 있습니다.
4. 콘텐츠 필터 티어에서 텍스트 기반 프롬프트 및 응답을 필터링하는 데 가드레일이 사용할 보호 티어를 선택합니다. 자세한 내용은 가드레일 정책에 대한 티어 보호 단원을 참조하십시오.
5. 필요에 따라 다른 정책을 구성하려면 다음을 선택하고 가드레일 생성을 완료하려면 검토 및 생성으로 건너뛰기를 선택합니다.
가드레일의 설정을 검토합니다.
1. 변경하려는 섹션에서 편집을 선택합니다.
2. 정책 구성을 완료했으면 생성을 선택하여 가드레일을 생성합니다.

API

CreateGuardrail 요청을 전송하여 가드레일의 콘텐츠 필터를 구성합니다. 요청 형식은 다음과 같습니다.


POST /guardrails HTTP/1.1
Content-type: application/json

{
   "blockedInputMessaging": "string",
   "blockedOutputsMessaging": "string",
   "contentPolicyConfig": { 
      "filtersConfig": [ 
         {
            "inputAction": "BLOCK | NONE",
            "inputModalities": [ "TEXT" ], 
            "inputStrength": "NONE | LOW | MEDIUM | HIGH",
            "outputStrength": "NONE | LOW | MEDIUM | HIGH",
            "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT"
         }
      ],
      "tierConfig": { 
         "tierName": "CLASSIC | STANDARD"
      }
   },
   "crossRegionConfig": { 
      "guardrailProfileIdentifier": "string"
   },
   "description": "string",
   "name": "string"
}

가드레일에 name 및 description을 지정합니다.
가드레일이 blockedInputMessaging 및 blockedOutputsMessaging 필드에서 프롬프트 또는 모델 응답을 성공적으로 차단했을 때의 메시지를 지정합니다.
contentPolicyConfig 객체에서 사용할 수 있는 유해 범주에 대한 필터 강도를 지정합니다.

filtersConfig 목록의 각 항목은 유해 카테고리와 관련이 있습니다. 자세한 내용은 콘텐츠 필터로 유해한 단어 및 대화 차단 섹션을 참조하세요. 콘텐츠 필터의 필드에 대한 자세한 내용은 ContentFilter를 참조하세요.
- (선택 사항) inputAction 및의 경우 프롬프트 및 응답에서 유해한 콘텐츠를 감지할 때 가드레일이 수행하는 작업을 outputAction지정합니다.
- (선택 사항)를 사용하는 프롬프트에서 유해한 콘텐츠가 감지될 때 수행할 작업 inputAction 또는를 사용하는 응답을 지정합니다outputAction. 콘텐츠를 차단하고 차단된 메시징으로 바꾸거나 조치를 NONE 취하지 않고 탐지 정보를 반환BLOCK하도록 선택합니다. 자세한 내용은 Amazon Bedrock Guardrails에서 감지한 유해한 콘텐츠를 처리하는 옵션 단원을 참조하십시오.
- 필드의 프롬프트 및 inputStrength 필드의 모델 응답에 대한 필터의 강도를 지정합니다outputStrength.
- type 필드에 카테고리를 지정합니다.
(선택 사항) contentPolicyConfig 객체 내의 tierConfig 객체에서 가드레일의 보호 계층을 지정합니다. 옵션에는 STANDARD 및 CLASSIC 계층이 포함됩니다.

자세한 내용은 가드레일 정책에 대한 티어 보호 단원을 참조하십시오.
(선택 사항) 교차 리전 추론을 활성화하려면 crossRegionConfig 객체에 가드레일 프로파일을 지정합니다. 이는 STANDARD 티어를 사용할 때 필요합니다.

응답 형식은 다음과 같습니다.


HTTP/1.1 202
Content-type: application/json

{
   "createdAt": "string",
   "guardrailArn": "string",
   "guardrailId": "string",
   "version": "string"
}

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

콘텐츠 필터 구성

콘텐츠 필터(이미지)