Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Blocca parole e conversazioni dannose con i filtri dei contenuti
Amazon Bedrock Guardrails supporta filtri di contenuto per aiutare a rilevare e filtrare gli input dannosi degli utenti e gli output generati dal modello in linguaggio naturale. I filtri di contenuto sono supportati nelle seguenti categorie:
Odio
Descrive i suggerimenti di input e le risposte modello che discriminano, criticano, insultano, denunciano o disumanizzano una persona o un gruppo sulla base di un'identità (come razza, etnia, genere, religione, orientamento sessuale, abilità e origine nazionale).
Insulti
Sessuale
Violenza
Cattiva condotta
Descrive i suggerimenti di input e le risposte modello che cercano o forniscono informazioni sul coinvolgimento in attività criminali o sul danneggiamento, la frode o lo sfruttamento di una persona, un gruppo o un'istituzione.
Configura i filtri di contenuto per il tuo guardrail
Puoi configurare i filtri dei contenuti per il tuo guardrail utilizzando l'API AWS Management Console o Amazon Bedrock.
- Console
-
Accedi a AWS Management Console con un'identità IAM che dispone delle autorizzazioni per utilizzare la console Amazon Bedrock. Quindi, apri la console Amazon Bedrock in https://console.aws.amazon.com/bedrock.
-
Dal riquadro di navigazione a sinistra, scegli Guardrails, quindi scegli Crea guardrail.
-
Per fornire la pagina dei dettagli del guardrail, procedi come segue:
-
Nella sezione dei dettagli del guardrail, fornisci un nome e una descrizione opzionale per il guardrail.
-
Per Messaggi per richieste bloccate, inserisci un messaggio che viene visualizzato quando viene applicato il guardrail. Seleziona la casella di controllo Applica lo stesso messaggio bloccato alle risposte per utilizzare lo stesso messaggio quando il guardrail viene applicato alla risposta.
-
(Facoltativo) Per abilitare l'inferenza tra regioni per il tuo guardrail, espandi Inferenza interregionale, quindi seleziona Abilita inferenza interregionale per il tuo guardrail. Scegli un profilo guardrail che definisca la destinazione in cui possono essere instradate le richieste di inferenza del guardrail. Regioni AWS
-
(Facoltativo) Per impostazione predefinita, il guardrail è crittografato con un. Chiave gestita da AWS Per utilizzare la tua chiave KMS gestita dal cliente, espandi la selezione della chiave KMS e seleziona la casella di controllo Personalizza le impostazioni di crittografia (avanzate).
Puoi selezionare una AWS KMS chiave esistente o selezionare Crea una chiave per crearne una AWS KMS nuova.
-
(Facoltativo) Per aggiungere tag al tuo guardrail, espandi Tag. Quindi seleziona Aggiungi nuovo tag per ogni tag che definisci.
Per ulteriori informazioni, consulta Etichettare le risorse di Amazon Bedrock.
-
Scegli Next (Successivo).
-
Nella pagina Configura i filtri dei contenuti, imposta la forza con cui desideri filtrare i contenuti correlati alle categorie definite in Blocca parole e conversazioni dannose con i filtri dei contenuti procedendo come segue:
-
Seleziona Configura il filtro delle categorie dannose. Seleziona Testo e/o Immagine per filtrare il contenuto di testo o immagine dai prompt o dalle risposte al modello. Seleziona Nessuno, Basso, Medio o Alto per il livello di filtrazione che desideri applicare a ciascuna categoria. Puoi scegliere di avere diversi livelli di filtro per le richieste o le risposte. È possibile selezionare il filtro per gli attacchi rapidi nelle categorie dannose. Configura quanto rigoroso desideri che ogni filtro sia per i prompt che l'utente fornisce al modello.
-
Scegli Blocca o Rileva (nessuna azione) per determinare l'azione intrapresa dal guardrail quando rileva contenuti dannosi nei prompt e nelle risposte.
Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Amazon Bedrock Guardrails.
-
Per Imposta soglia, seleziona Nessuno, Basso, Medio o Alto per il livello di filtrazione che desideri applicare a ciascuna categoria.
Puoi scegliere di avere diversi livelli di filtro per i prompt e le risposte.
-
Per il livello dei filtri dei contenuti, scegli il livello di protezione che desideri che il guardrail utilizzi per filtrare i prompt e le risposte basati su testo. Per ulteriori informazioni, consulta Livelli di salvaguardia per le politiche di guardrail.
-
Scegli Avanti per configurare altre politiche in base alle esigenze o passa a Rivedi e crea per completare la creazione del tuo guardrail.
-
Controlla le impostazioni del tuo guardrail.
-
Seleziona Modifica in qualsiasi sezione a cui desideri apportare modifiche.
-
Al termine della configurazione delle politiche, seleziona Crea per creare il guardrail.
- API
-
Configura i filtri di contenuto per il tuo guardrail inviando una richiesta. CreateGuardrail Il formato della richiesta è il seguente:
POST /guardrails HTTP/1.1
Content-type: application/json
{
"blockedInputMessaging": "string",
"blockedOutputsMessaging": "string",
"contentPolicyConfig": {
"filtersConfig": [
{
"inputAction": "BLOCK | NONE",
"inputModalities": [ "TEXT" ],
"inputStrength": "NONE | LOW | MEDIUM | HIGH",
"outputStrength": "NONE | LOW | MEDIUM | HIGH",
"type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT"
}
],
"tierConfig": {
"tierName": "CLASSIC | STANDARD"
}
},
"crossRegionConfig": {
"guardrailProfileIdentifier": "string"
},
"description": "string",
"name": "string"
}
-
Specificare una name
e description
per il guardrail.
-
Specificate i messaggi che indicano quando il guardrail blocca correttamente un prompt o una risposta del modello nei campi and. blockedInputMessaging
blockedOutputsMessaging
-
Specificate i livelli di filtraggio per le categorie dannose disponibili nell'oggetto. contentPolicyConfig
Ogni elemento dell'filtersConfig
elenco appartiene a una categoria dannosa. Per ulteriori informazioni, consulta Blocca parole e conversazioni dannose con i filtri dei contenuti. Per ulteriori informazioni sui campi di un filtro di contenuti, consulta ContentFilter.
-
(Facoltativo) Per inputAction
eoutputAction
, specifica l'azione intrapresa dal guardrail quando rileva contenuti dannosi nei prompt e nelle risposte.
-
(Facoltativo) Specificate l'azione da intraprendere quando viene rilevato contenuto dannoso nei prompt utilizzati o nelle risposte utilizzando. inputAction
outputAction
Scegli BLOCK
di bloccare i contenuti e sostituirli con messaggi bloccati oppure di non NONE
intraprendere alcuna azione ma restituire informazioni di rilevamento. Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Amazon Bedrock Guardrails.
-
Specificate l'efficacia del filtro per i prompt inputStrength
sul campo e per le risposte del modello sul outputStrength
campo.
-
Specificate la categoria nel campo. type
-
(Facoltativo) Specificate un livello di protezione per il guardrail nell'tierConfig
oggetto all'interno dell'contentPolicyConfig
oggetto. Le opzioni includono i STANDARD
livelli. CLASSIC
Per ulteriori informazioni, consulta Livelli di salvaguardia per le politiche di guardrail.
-
(Facoltativo) Per abilitare l'inferenza tra regioni, specificate un profilo di guardrail nell'oggetto. crossRegionConfig
Questo è necessario quando si utilizza il livello. STANDARD
Il formato di risposta è simile al seguente:
HTTP/1.1 202
Content-type: application/json
{
"createdAt": "string",
"guardrailArn": "string",
"guardrailId": "string",
"version": "string"
}