As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O Amazon Bedrock Guardrails oferece suporte a filtros de conteúdo para ajudar a detectar e filtrar entradas nocivas de usuários e saídas geradas por modelos em linguagem natural. Os filtros de conteúdo são compatíveis com as seguintes categorias:
Ódio
Descreve sugestões de entrada e modela respostas que discriminam, criticam, insultam, denunciam ou desumanizam uma pessoa ou grupo com base em uma identidade (como raça, etnia, gênero, religião, orientação sexual, habilidade e origem nacional).
Insultos
Descreve solicitações de entrada e respostas de modelo que incluem linguagem humilhante, humilhante, zombeteira, insultante ou depreciativa. Esse tipo de linguagem também é chamado de bullying.
Sexual
Descreve solicitações de entrada e respostas de modelo que indicam interesse, atividade ou excitação sexual usando referências diretas ou indiretas a partes do corpo, características físicas ou sexo.
Violência
Descreve sugestões de entrada e respostas modelo que incluem glorificação ou ameaças de infligir dor física, mágoa ou lesão a uma pessoa, grupo ou coisa.
Conduta imprópria
Descreve solicitações de entrada e modela respostas que buscam ou fornecem informações sobre o envolvimento em atividades criminosas ou sobre como prejudicar, fraudar ou tirar proveito de uma pessoa, grupo ou instituição.
Ataque imediato
Descreve as instruções do usuário destinadas a contornar os recursos de segurança e moderação de um modelo básico para gerar conteúdo prejudicial (também conhecido como jailbreak) e ignorar e substituir as instruções especificadas pelo desenvolvedor (chamadas de injeção imediata). Requer que a marcação de entrada seja usada para que um ataque de prompt seja aplicado. A detecção de Ataques de prompt requer que as tags de entrada sejam usadas.