Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Bloquear palavras e conversas prejudiciais com filtros de conteúdo

Modo de foco
Bloquear palavras e conversas prejudiciais com filtros de conteúdo - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O Amazon Bedrock Guardrails oferece suporte a filtros de conteúdo para ajudar a detectar e filtrar entradas nocivas de usuários e saídas geradas por modelos em linguagem natural. Os filtros de conteúdo são compatíveis com as seguintes categorias:

Ódio

  • Conteúdo de texto — descreve sugestões de entrada e modelam respostas que discriminam, criticam, insultam, denunciam ou desumanizam uma pessoa ou grupo com base em uma identidade (como raça, etnia, gênero, religião, orientação sexual, habilidade e origem nacional).

  • Conteúdo de imagem (em versão prévia) — descreve solicitações de entrada e respostas de modelos que incluem conteúdo visual gráfico e real exibindo certos símbolos de grupos de ódio, símbolos de ódio e imagens associadas a várias organizações que promovem discriminação, racismo e intolerância.

Insultos

  • Conteúdo de texto — descreve solicitações de entrada e respostas modelo que incluem linguagem humilhante, humilhante, zombeteira, insultante ou depreciativa. Esse tipo de linguagem também é chamado de bullying.

  • Conteúdo da imagem (em versão prévia) — descreve solicitações de entrada e respostas modelo que abrangem várias formas de gestos rudes, desrespeitosos ou ofensivos destinados a expressar desprezo, raiva ou desaprovação.

Sexual

  • Conteúdo de texto — descreve solicitações de entrada e respostas modelo que indicam interesse, atividade ou excitação sexual usando referências diretas ou indiretas a partes do corpo, características físicas ou sexo.

  • Conteúdo da imagem (em versão prévia) — descreve as solicitações de entrada e modela as respostas que exibem partes íntimas do corpo ou atividade sexual. Essa categoria também inclui desenhos animados, animes, desenhos, esboços e outros conteúdos ilustrados com temas sexuais.

Violência

  • Conteúdo de texto — descreve sugestões de entrada e respostas modelo que incluem glorificação ou ameaças de infligir dor física, mágoa ou lesão a uma pessoa, grupo ou coisa.

  • Conteúdo da imagem (em versão prévia) — descreve sugestões de entrada e respostas modelo que incluem práticas de automutilação, agressões físicas violentas e representações de pessoas ou animais se machucando, geralmente acompanhadas de lesões corporais ou sanguíneas proeminentes.

Conduta imprópria

  • Somente conteúdo de texto — descreve solicitações de entrada e modela respostas que buscam ou fornecem informações sobre o envolvimento em atividades criminosas ou sobre como prejudicar, fraudar ou tirar proveito de uma pessoa, grupo ou instituição.

Ataque imediato

  • Somente conteúdo de texto; aplica-se somente a solicitações com marcação de entrada — descreve as solicitações do usuário destinadas a contornar os recursos de segurança e moderação de um modelo básico para gerar conteúdo prejudicial (também conhecido como jailbreak) e ignorar e substituir as instruções especificadas pelo desenvolvedor (conhecida como injeção imediata). Requer que a marcação de entrada seja usada para que um ataque de prompt seja aplicado. A detecção de Ataques de prompt requer que as tags de entrada sejam usadas.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.