Bloquear palavras e conversas prejudiciais com filtros de conteúdo - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Bloquear palavras e conversas prejudiciais com filtros de conteúdo

O Amazon Bedrock Guardrails permite usar filtros de conteúdo para ajudar a detectar e filtrar entradas de usuário e saídas geradas por modelo que são prejudiciais. Os filtros de conteúdo são compatíveis com as seguintes categorias:

Ódio

  • Conteúdo de texto — descreve sugestões de entrada e modelam respostas que discriminam, criticam, insultam, denunciam ou desumanizam uma pessoa ou grupo com base em uma identidade (como raça, etnia, gênero, religião, orientação sexual, habilidade e origem nacional).

  • Conteúdo de imagem (em versão prévia) — descreve solicitações de entrada e respostas de modelos que incluem conteúdo visual gráfico e real exibindo certos símbolos de grupos de ódio, símbolos de ódio e imagens associadas a várias organizações que promovem discriminação, racismo e intolerância.

Insultos

  • Conteúdo de texto — descreve solicitações de entrada e respostas modelo que incluem linguagem humilhante, humilhante, zombeteira, insultante ou depreciativa. Esse tipo de linguagem também é chamado de bullying.

  • Conteúdo da imagem (em versão prévia) — descreve solicitações de entrada e respostas modelo que abrangem várias formas de gestos rudes, desrespeitosos ou ofensivos destinados a expressar desprezo, raiva ou desaprovação.

Sexual

  • Conteúdo de texto — descreve solicitações de entrada e respostas modelo que indicam interesse, atividade ou excitação sexual usando referências diretas ou indiretas a partes do corpo, características físicas ou sexo.

  • Conteúdo da imagem (em pré-visualização) — descreve as solicitações de entrada e modela as respostas que exibem partes íntimas do corpo ou atividade sexual. Essa categoria também inclui desenhos animados, animes, desenhos, esboços e outros conteúdos ilustrados com temas sexuais.

Violência

  • Conteúdo de texto — descreve sugestões de entrada e respostas modelo que incluem glorificação ou ameaças de infligir dor física, mágoa ou lesão a uma pessoa, grupo ou coisa.

  • Conteúdo da imagem (em versão prévia) — descreve sugestões de entrada e respostas modelo que incluem práticas de automutilação, agressões físicas violentas e representações de pessoas ou animais se machucando, geralmente acompanhadas de lesões corporais ou sanguíneas proeminentes.

Conduta imprópria

  • Somente conteúdo de texto — descreve solicitações de entrada e modela respostas que buscam ou fornecem informações sobre o envolvimento em atividades criminosas ou sobre como prejudicar, fraudar ou tirar proveito de uma pessoa, grupo ou instituição.

Ataque imediato

  • Somente conteúdo de texto; aplica-se somente a solicitações com marcação de entrada — descreve as solicitações do usuário destinadas a contornar os recursos de segurança e moderação de um modelo básico para gerar conteúdo prejudicial (também conhecido como jailbreak) e ignorar e substituir as instruções especificadas pelo desenvolvedor (conhecida como injeção imediata). Requer que a marcação de entrada seja usada para que um ataque de prompt seja aplicado. A detecção de Ataques de prompt requer que as tags de entrada sejam usadas.