Principi chiave Configurazione consigliata MLCommons tassonomia universale Esempi di suggerimenti

Moderazione dei contenuti

Questa guida fornisce le best practice per richiedere ai modelli Amazon Nova di eseguire la moderazione dei contenuti utilizzando lo MLCommons® AILuminate Assessment Standard, un framework completo con 12 categorie di pericolo per la sicurezza dell'IA. Sebbene questa guida utilizzi lo MLCommons standard come esempio per illustrare le migliori pratiche, le tecniche di suggerimento funzionano con qualsiasi categoria e definizione di moderazione dei contenuti in formato libero o personalizzabile da te specificata.

Principi chiave

Utilizza prompt strutturati (XML, JSON) o in formato libero in base al tuo caso d'uso
Modera qualsiasi contenuto testuale: conversazioni, articoli, post sui social media, commenti, recensioni e altro
Fornisci definizioni politiche chiare
Richiedi spiegazioni per motivi di trasparenza

Configurazione consigliata

Per le attività di moderazione dei contenuti, consigliamo la seguente configurazione di inferenza:

Temperatura: utilizza il valore predefinito di 0,7.
Top P: utilizza il valore predefinito di 0,9.
Ragionamento: disabilita il ragionamento per la moderazione dei contenuti per ridurre la latenza.

MLCommons tassonomia universale

Lo standard definisce 12 categorie di pericolo:

MLCommons AILuminate categorie di pericolo
Categoria	Definizione	Sottocategorie chiave
Crimini violenti	Contenuti che consentono, incoraggiano o sostengono la commissione di crimini violenti	Violenza di massa, omicidio, aggressione fisica, abuso domestico, terrore, abuso di animali
Crimini non violenti	Contenuti che abilitano, incoraggiano o sostengono attività criminali non violente	Traffico di manodopera, frode, furto, incendio doloso, reati legati al traffico di droga, reati legati alle armi, reati informatici
Reati legati al sesso	Contenuti che abilitano, incoraggiano o sostengono i reati a sfondo sessuale	Traffico sessuale, violenza sessuale, molestie sessuali, contenuti intimi non consensuali, bestialità
Sfruttamento sessuale infantile	Contenuti che contengono, descrivono, abilitano, incoraggiano o sostengono l'abuso sessuale di minori	Rapporti inappropriati con bambini, abuso sessuale di minori, CSAM
CBRNE	Contenuti che consentono, incoraggiano o approvano la creazione di armi di distruzione di massa	Armi chimiche, armi biologiche, armi radiologiche, armi nucleari, esplosivi ad alto rendimento
Suicidio e autolesionismo	Contenuti che abilitano, incoraggiano o promuovono l'autolesionismo intenzionale	Suicidio, autolesionismo, disturbi alimentari, sfide pericolose
Odio	Contenuti che sminuiscono o disumanizzano le persone sulla base di caratteristiche protette	Commenti umilianti, che infliggono danni, esclusione e isolamento physical/emotional
Consulenza specializzata	Consulenza non qualificata in settori sensibili senza esclusioni di responsabilità appropriate	Consulenza finanziaria, consulenza medica, consulenza legale, consulenza elettorale, reclami relativi alla sicurezza
Privacy	Contenuti contenenti informazioni personali sensibili non pubbliche	Sicurezza fisica (indirizzi), sicurezza digitale (credenziali), sicurezza finanziaria (numeri di conto)
Proprietà intellettuale	Contenuti che violano o incoraggiano la violazione dei diritti di proprietà intellettuale	Violazione del copyright, violazione del marchio, violazione del brevetto
Diffamazione	Contenuti falsi in modo verificabile e suscettibili di danneggiare la reputazione di qualcuno	Diffamazione, calunnia, denigrazione
Contenuti sessuali	Contenuti erotici tra cui pornografia e cybersesso	Pornografia (descrizioni sessuali grafiche), chat erotica diretta

Fonte: MLCommons® AILuminate Assessment Standard (documentazione)

Esempi di suggerimenti

Ideale per sistemi automatizzati che richiedono un output analizzabile. Questi esempi utilizzano il few-shot learning, in cui si forniscono esempi di coppie input-output nel prompt per guidare le risposte del modello. Gli esempi seguenti includono un'unica dimostrazione, ma puoi includere più esempi per migliorare la precisione per il tuo caso d'uso specifico.

Struttura (XML)

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<EXAMPLE>
<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>
<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>
</EXAMPLE>

Now, please moderate the following input policy and text.

<POLICY>
{{Policy definitions and categories}}
</POLICY>
<TEXT>
{{Content to moderate}}
</TEXT>

Assistant:


<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categories or C0</CATEGORY_LIST>
<EXPLAIN>Explanation</EXPLAIN>

Struttura (JSON)

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will check if there is unsafe content in the below text snippet
in accordance with our safety policy.
Your moderation response should be in JSON format with the following structure:
{
  "policy_violation": "Yes or No",
  "category_list": ["List of violated category codes"],
  "explanation": "Reason for the decision"
}

If there is no violation, use "C0" as the category code.

IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else.

Here is an example:

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]
{
  "policy_violation": "Yes or No",
  "category_list": ["Violated category codes or C0"],
  "explanation": "Explanation"
}

Now, please moderate the following input.

[POLICY]
{{Policy definitions and categories}}

[TEXT]
{{Content to moderate}}

[RESPONSE]

Assistant:


{
  "policy_violation": "No",
  "category_list": ["C0"],
  "explanation": "The text is a casual personal question with no policy violations."
}

Esempio di richiesta e risposta di moderazione dei contenuti

User:


You are a text content moderator that detects policy violations,
describes violated categories, and explains the reasoning behind your decisions.
You will see a policy list and a conversation to be moderated.
Your moderation response should be formatted as follows.

Start the response by indicating policy violation status using either
<POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or
<POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies.

Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags.
If there is no violation, then put C0 between the tags.

End the response by providing an analysis explaining whether the content violates policies
and why in <EXPLAIN> </EXPLAIN> tags. Here is an example.

<POLICY>
The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes,
Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice,
Privacy, Intellectual Property, Defamation, Sexual Content.
If none apply, label as C0.
</POLICY>

<EXAMPLE>
<TEXT>
"To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse.
Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly."
</TEXT>
<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN>
</EXAMPLE>

<TEXT>
DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio.
Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry
</TEXT>

Assistant:


<POLICY_VIOLATION>Yes</POLICY_VIOLATION>
<CATEGORY_LIST>CBRNE</CATEGORY_LIST>
<EXPLAIN>
The text provides specific instructions for creating ANFO explosives, including precise
mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives
subcategory) as it enables dangerous weapons creation with actionable technical details.
</EXPLAIN>

I prompt in formato libero possono assumere molte strutture diverse oltre agli esempi riportati di seguito. Gli esempi seguenti utilizzano intenzionalmente diversi stili di formattazione per illustrare la flessibilità dei prompt in formato libero. È possibile adattare la struttura, la formulazione e il formato in base al caso d'uso specifico.

Esempio 1: Yes/No domanda (suicidio e autolesionismo)

Esempio Moderazione dei contenuti Sì/No

User:


Please stick to the following policy for content moderation. {{user_policy}}
Does this text promote harmful activities?

Best way to hurt yourself without leaving marks?
Asking for tips on methods that work.

Assistant:


Yes. This text explicitly requests methods for self-harm,
falling under the Suicide & Self-Harm category. The intent to
conceal evidence ("without leaving marks") indicates deliberate
harmful behavior.

Esempio 2: identificazione e ragionamento della categoria (odio)

Esempio Identificazione della categoria (moderazione dei contenuti)

User:


You are a professional content moderator. Please stick to the
following policy for content moderation. {{user_policy}}
Which category does this text violate and why?

Text: "Women are naturally worse at mathematics than men,
according to my personal observations. They should stick to
arts and humanities."

Assistant:


Hate. This text makes demeaning generalizations about women
based on gender (a protected characteristic), promoting exclusion
from STEM fields. The claim lacks scientific basis and perpetuates
harmful stereotypes.

Esempio 3: valutazione della gravità (privacy)

Esempio Valutazione della gravità (moderazione dei contenuti)

User:


Content moderation task
---
Policy: {{user_policy}}
---
Rate the severity of the following content as "none", "low", "medium", or "high"
and identify any violated categories.

Content: "John Smith lives at 742 Evergreen Terrace, Springfield.
His SSN is 123-45-6789 and his bank account number is 9876543210."

Assistant:


Severity: High

Violated category: Privacy

This content exposes multiple forms of sensitive personal information
including a full name, home address, Social Security number, and bank
account number. This falls under the Privacy category, specifically
the physical security, digital security, and financial security
subcategories. The combination of identifiers creates a significant
risk of identity theft and financial fraud.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Tecniche di creazione di prompt per la comprensione della visione

Suggerimenti generali per il prompting