Configure filtros de conteúdo para sua grade de proteção

Bloquear palavras e conversas prejudiciais com filtros de conteúdo

O Amazon Bedrock Guardrails oferece suporte a filtros de conteúdo para ajudar a detectar e filtrar entradas nocivas de usuários e saídas geradas por modelos em linguagem natural. Os filtros de conteúdo são compatíveis com as seguintes categorias:

Ódio

Descreve sugestões de entrada e modela respostas que discriminam, criticam, insultam, denunciam ou desumanizam uma pessoa ou grupo com base em uma identidade (como raça, etnia, gênero, religião, orientação sexual, habilidade e origem nacional).

Insultos

Descreve solicitações de entrada e respostas de modelo que incluem linguagem humilhante, humilhante, zombeteira, insultante ou depreciativa. Esse tipo de linguagem também é chamado de bullying.

Sexual

Descreve solicitações de entrada e respostas de modelo que indicam interesse, atividade ou excitação sexual usando referências diretas ou indiretas a partes do corpo, características físicas ou sexo.

Violência

Descreve sugestões de entrada e respostas modelo que incluem glorificação ou ameaças de infligir dor física, mágoa ou lesão a uma pessoa, grupo ou coisa.

Conduta imprópria

Descreve solicitações de entrada e modela respostas que buscam ou fornecem informações sobre o envolvimento em atividades criminosas ou sobre como prejudicar, fraudar ou tirar proveito de uma pessoa, grupo ou instituição.

Configure filtros de conteúdo para sua grade de proteção

Você pode configurar filtros de conteúdo para sua grade de proteção usando a API Amazon Bedrock ou AWS Management Console Amazon Bedrock.

Console

Faça login no AWS Management Console com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em https://console.aws.amazon.com/bedrock.
No painel de navegação esquerdo, escolha Guardrails e, em seguida, escolha Create guardrail.
Na página Fornecer detalhes do guardrail, faça o seguinte:
1. Na seção Detalhes da barreira de proteção, forneça um Nome e uma Descrição opcional para a barreira de proteção.
2. Em Mensagens para solicitações bloqueadas, insira uma mensagem que será exibida quando sua grade de proteção for aplicada. Marque a caixa de seleção Aplicar a mesma mensagem bloqueada para respostas para usar a mesma mensagem quando sua grade de proteção for aplicada à resposta.
3. (Opcional) Para ativar a inferência entre regiões para sua grade de proteção, expanda a inferência entre regiões e selecione Ativar inferência entre regiões para sua grade de proteção. Escolha um perfil de guardrail que defina o destino para Regiões da AWS onde as solicitações de inferência de guardrail podem ser roteadas.
4. (Opcional) Por padrão, sua grade de proteção é criptografada com um. Chave gerenciada pela AWS Para usar sua própria chave KMS gerenciada pelo cliente, expanda a seleção de chaves KMS e marque a caixa de seleção Personalizar configurações de criptografia (avançadas).
  
  Você pode selecionar uma AWS KMS chave existente ou selecionar Criar uma AWS KMS chave para criar uma nova.
5. (Opcional) Para adicionar tags à sua grade de proteção, expanda Tags. Em seguida, selecione Adicionar nova tag para cada tag que você definir.
  
  Para obter mais informações, consulte Marcação de recursos do Amazon Bedrock.
6. Escolha Próximo.
Na página Configurar filtros de conteúdo, configure com que intensidade você deseja filtrar o conteúdo relacionado às categorias definidas em Bloquear palavras e conversas prejudiciais com filtros de conteúdo fazendo o seguinte:
1. Selecione Configurar filtro de categorias prejudiciais. Selecione Texto e/ou Imagem para filtrar o conteúdo de texto ou imagem a partir de solicitações ou respostas ao modelo. Selecione Nenhum, Baixo, Médio ou Alto para o nível de filtragem que você deseja aplicar a cada categoria. Você pode optar por ter diferentes níveis de filtro para solicitações ou respostas. É possível selecionar o filtro de ataques de prompt nas categorias prejudiciais. Configure o rigor de cada filtro para prompts que o usuário fornece ao modelo.
2. Escolha Bloquear ou Detectar (sem ação) para determinar qual ação seu guardrail executa ao detectar conteúdo nocivo em avisos e respostas.
  
  Para obter mais informações, consulte Opções para lidar com conteúdo nocivo detectado pelo Amazon Bedrock Guardrails.
3. Em Definir limite, selecione Nenhum, Baixo, Médio ou Alto para o nível de filtragem que você deseja aplicar a cada categoria.
  
  Você pode optar por ter diferentes níveis de filtro para solicitações e respostas.
4. Para o nível de filtros de conteúdo, escolha o nível de proteção que você deseja que sua grade de proteção use para filtrar solicitações e respostas baseadas em texto. Para obter mais informações, consulte Níveis de proteção para políticas de grades de proteção.
5. Escolha Avançar para configurar outras políticas conforme necessário ou Ir para revisar e criar para concluir a criação de sua grade de proteção.
Revise as configurações do seu guarda-corpo.
1. Selecione Editar em qualquer seção na qual desejar fazer alterações.
2. Quando terminar de configurar as políticas, selecione Criar para criar a grade de proteção.

API

Configure filtros de conteúdo para sua grade de proteção enviando uma CreateGuardrailsolicitação. O formato da solicitação é o seguinte:


POST /guardrails HTTP/1.1
Content-type: application/json

{
   "blockedInputMessaging": "string",
   "blockedOutputsMessaging": "string",
   "contentPolicyConfig": { 
      "filtersConfig": [ 
         {
            "inputAction": "BLOCK | NONE",
            "inputModalities": [ "TEXT" ], 
            "inputStrength": "NONE | LOW | MEDIUM | HIGH",
            "outputStrength": "NONE | LOW | MEDIUM | HIGH",
            "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT"
         }
      ],
      "tierConfig": { 
         "tierName": "CLASSIC | STANDARD"
      }
   },
   "crossRegionConfig": { 
      "guardrailProfileIdentifier": "string"
   },
   "description": "string",
   "name": "string"
}

Especifique um name e uma description para a barreira de proteção.
Especifique mensagens para quando a barreira de proteção bloquear um prompt ou uma resposta do modelo com sucesso nos campos blockedInputMessaging e blockedOutputsMessaging.
Especifique as intensidades do filtro para as categorias nocivas disponíveis no contentPolicyConfig objeto.

Cada item da lista de filtersConfig pertence a uma categoria prejudicial. Para obter mais informações, consulte Bloquear palavras e conversas prejudiciais com filtros de conteúdo. Para obter mais informações sobre os campos em um filtro de conteúdo, consulte ContentFilter.
- (Opcional) Para inputAction eoutputAction, especifique a ação que seu guardrail executa ao detectar conteúdo nocivo em solicitações e respostas.
- (Opcional) Especifique a ação a ser tomada quando conteúdo nocivo for detectado em prompts usando inputAction ou respostas usandooutputAction. Escolha BLOCK bloquear o conteúdo e substituí-lo por mensagens bloqueadas ou não NONE realizar nenhuma ação além de retornar as informações de detecção. Para obter mais informações, consulte Opções para lidar com conteúdo nocivo detectado pelo Amazon Bedrock Guardrails.
- Especifique a intensidade do filtro para solicitações no inputStrength campo e para respostas do modelo no outputStrength campo.
- Especifique a categoria no campo type.
(Opcional) Especifique um nível de proteção para sua grade de proteção no tierConfig objeto dentro do objeto. contentPolicyConfig As opções incluem CLASSIC níveis STANDARD e níveis.

Para obter mais informações, consulte Níveis de proteção para políticas de grades de proteção.
(Opcional) Para habilitar a inferência entre regiões, especifique um perfil de proteção no objeto. crossRegionConfig Isso é necessário ao usar o STANDARD nível.

O formato da resposta tem a seguinte aparência:


HTTP/1.1 202
Content-type: application/json

{
   "createdAt": "string",
   "guardrailArn": "string",
   "guardrailId": "string",
   "version": "string"
}

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Configurar filtros de conteúdo

Filtros de conteúdo (imagens)