Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Amazon Bedrock Guardrails supporta filtri di contenuto per aiutare a rilevare e filtrare gli input dannosi degli utenti e gli output generati dal modello in linguaggio naturale. I filtri di contenuto sono supportati nelle seguenti categorie:
Odio
Descrive i suggerimenti di input e le risposte modello che discriminano, criticano, insultano, denunciano o disumanizzano una persona o un gruppo sulla base di un'identità (come razza, etnia, genere, religione, orientamento sessuale, abilità e origine nazionale).
Insulti
Descrive i suggerimenti di input e le risposte modello che includono un linguaggio umiliante, derisorio, offensivo o sminuente. Questo tipo di linguaggio è anche etichettato come bullismo.
Sessuale
Descrive i suggerimenti di input e le risposte modello che indicano interesse, attività o eccitazione sessuale utilizzando riferimenti diretti o indiretti a parti del corpo, tratti fisici o sesso.
Violenza
Descrive i suggerimenti di input e le risposte modello che includono la glorificazione o la minaccia di infliggere dolore fisico, ferite o lesioni a una persona, un gruppo o una cosa.
Cattiva condotta
Descrive i suggerimenti di input e le risposte modello che cercano o forniscono informazioni sul coinvolgimento in attività criminali o sul danneggiamento, la frode o lo sfruttamento di una persona, un gruppo o un'istituzione.
Attacco rapido
Descrive i prompt degli utenti volti a bypassare le funzionalità di sicurezza e moderazione di un modello base per generare contenuti dannosi (noto anche come jailbreak) e ignorare e sovrascrivere le istruzioni specificate dallo sviluppatore (operazione denominata prompt injection). Richiede l'utilizzo di tag di input per poter applicare un attacco tempestivo. Attacchi rapidiil rilevamento richiede l'utilizzo di tag di input.