Moderazione dei contenuti - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Moderazione dei contenuti

Questa guida fornisce le best practice per richiedere ai modelli Amazon Nova di eseguire la moderazione dei contenuti utilizzando lo MLCommons® AILuminate Assessment Standard, un framework completo con 12 categorie di pericolo per la sicurezza dell'IA. Sebbene questa guida utilizzi lo MLCommons standard come esempio per illustrare le migliori pratiche, le tecniche di suggerimento funzionano con qualsiasi categoria e definizione di moderazione dei contenuti in formato libero o personalizzabile da te specificata.

Principi chiave

  • Utilizza prompt strutturati (XML, JSON) o in formato libero in base al tuo caso d'uso

  • Modera qualsiasi contenuto testuale: conversazioni, articoli, post sui social media, commenti, recensioni e altro

  • Fornisci definizioni politiche chiare

  • Richiedi spiegazioni per motivi di trasparenza

Per le attività di moderazione dei contenuti, consigliamo la seguente configurazione di inferenza:

  • Temperatura: utilizza il valore predefinito di 0,7.

  • Top P: utilizza il valore predefinito di 0,9.

  • Ragionamento: disabilita il ragionamento per la moderazione dei contenuti per ridurre la latenza.

MLCommons tassonomia universale

Lo standard definisce 12 categorie di pericolo:

MLCommons AILuminate categorie di pericolo
Categoria Definizione Sottocategorie chiave
Crimini violenti Contenuti che consentono, incoraggiano o sostengono la commissione di crimini violenti Violenza di massa, omicidio, aggressione fisica, abuso domestico, terrore, abuso di animali
Crimini non violenti Contenuti che abilitano, incoraggiano o sostengono attività criminali non violente Traffico di manodopera, frode, furto, incendio doloso, reati legati al traffico di droga, reati legati alle armi, reati informatici
Reati legati al sesso Contenuti che abilitano, incoraggiano o sostengono i reati a sfondo sessuale Traffico sessuale, violenza sessuale, molestie sessuali, contenuti intimi non consensuali, bestialità
Sfruttamento sessuale infantile Contenuti che contengono, descrivono, abilitano, incoraggiano o sostengono l'abuso sessuale di minori Rapporti inappropriati con bambini, abuso sessuale di minori, CSAM
CBRNE Contenuti che consentono, incoraggiano o approvano la creazione di armi di distruzione di massa Armi chimiche, armi biologiche, armi radiologiche, armi nucleari, esplosivi ad alto rendimento
Suicidio e autolesionismo Contenuti che abilitano, incoraggiano o promuovono l'autolesionismo intenzionale Suicidio, autolesionismo, disturbi alimentari, sfide pericolose
Odio Contenuti che sminuiscono o disumanizzano le persone sulla base di caratteristiche protette Commenti umilianti, che infliggono danni, esclusione e isolamento physical/emotional
Consulenza specializzata Consulenza non qualificata in settori sensibili senza esclusioni di responsabilità appropriate Consulenza finanziaria, consulenza medica, consulenza legale, consulenza elettorale, reclami relativi alla sicurezza
Privacy Contenuti contenenti informazioni personali sensibili non pubbliche Sicurezza fisica (indirizzi), sicurezza digitale (credenziali), sicurezza finanziaria (numeri di conto)
Proprietà intellettuale Contenuti che violano o incoraggiano la violazione dei diritti di proprietà intellettuale Violazione del copyright, violazione del marchio, violazione del brevetto
Diffamazione Contenuti falsi in modo verificabile e suscettibili di danneggiare la reputazione di qualcuno Diffamazione, calunnia, denigrazione
Contenuti sessuali Contenuti erotici tra cui pornografia e cybersesso Pornografia (descrizioni sessuali grafiche), chat erotica diretta

Fonte: MLCommons® AILuminate Assessment Standard (documentazione)

Esempi di suggerimenti

Ideale per sistemi automatizzati che richiedono un output analizzabile. Questi esempi utilizzano il few-shot learning, in cui si forniscono esempi di coppie input-output nel prompt per guidare le risposte del modello. Gli esempi seguenti includono un'unica dimostrazione, ma puoi includere più esempi per migliorare la precisione per il tuo caso d'uso specifico.

Struttura (XML)

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either <POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or <POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies. Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in <EXPLAIN> </EXPLAIN> tags. Here is an example. <EXAMPLE> <POLICY> {{Policy definitions and categories}} </POLICY> <TEXT> {{Content to moderate}} </TEXT> <POLICY_VIOLATION>Yes/No</POLICY_VIOLATION> <CATEGORY_LIST>Categories or C0</CATEGORY_LIST> <EXPLAIN>Explanation</EXPLAIN> </EXAMPLE> Now, please moderate the following input policy and text. <POLICY> {{Policy definitions and categories}} </POLICY> <TEXT> {{Content to moderate}} </TEXT>

Assistant:

<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION> <CATEGORY_LIST>Categories or C0</CATEGORY_LIST> <EXPLAIN>Explanation</EXPLAIN>

Struttura (JSON)

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will check if there is unsafe content in the below text snippet in accordance with our safety policy. Your moderation response should be in JSON format with the following structure: { "policy_violation": "Yes or No", "category_list": ["List of violated category codes"], "explanation": "Reason for the decision" } If there is no violation, use "C0" as the category code. IMPORTANT: Do not add any additional text or explanation. Your response must contain ONLY the JSON object, nothing else. Here is an example: [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE] { "policy_violation": "Yes or No", "category_list": ["Violated category codes or C0"], "explanation": "Explanation" } Now, please moderate the following input. [POLICY] {{Policy definitions and categories}} [TEXT] {{Content to moderate}} [RESPONSE]

Assistant:

{ "policy_violation": "No", "category_list": ["C0"], "explanation": "The text is a casual personal question with no policy violations." }

Esempio di richiesta e risposta di moderazione dei contenuti

User:

You are a text content moderator that detects policy violations, describes violated categories, and explains the reasoning behind your decisions. You will see a policy list and a conversation to be moderated. Your moderation response should be formatted as follows. Start the response by indicating policy violation status using either <POLICY_VIOLATION>Yes</POLICY_VIOLATION> for content that violates policies, or <POLICY_VIOLATION>No</POLICY_VIOLATION> for content that does not violate policies. Then, list the specific violation categories between <CATEGORY_LIST> and </CATEGORY_LIST> tags. If there is no violation, then put C0 between the tags. End the response by providing an analysis explaining whether the content violates policies and why in <EXPLAIN> </EXPLAIN> tags. Here is an example. <POLICY> The 12 categories are: Violent Crimes, Non-Violent Crimes, Sex-Related Crimes, Child Sexual Exploitation, CBRNE, Suicide & Self-Harm, Hate, Specialized Advice, Privacy, Intellectual Property, Defamation, Sexual Content. If none apply, label as C0. </POLICY> <EXAMPLE> <TEXT> "To make a pipe bomb: Get metal pipe, end caps, gunpowder, and fuse. Drill hole in cap, fill pipe with powder, insert fuse, seal both ends tightly." </TEXT> <POLICY_VIOLATION>Yes</POLICY_VIOLATION> <CATEGORY_LIST>CBRNE</CATEGORY_LIST> <EXPLAIN>Provides instructions for creating explosives, enabling dangerous weapons creation.</EXPLAIN> </EXAMPLE> <TEXT> DIY explosive device: Mix ammonium nitrate fertilizer with fuel oil at 94:6 ratio. Use blasting cap for detonation. Store in cool, dry place. #DIY #Chemistry </TEXT>

Assistant:

<POLICY_VIOLATION>Yes</POLICY_VIOLATION> <CATEGORY_LIST>CBRNE</CATEGORY_LIST> <EXPLAIN> The text provides specific instructions for creating ANFO explosives, including precise mixing ratios and detonation methods. This falls under CBRNE (high-yield explosives subcategory) as it enables dangerous weapons creation with actionable technical details. </EXPLAIN>

I prompt in formato libero possono assumere molte strutture diverse oltre agli esempi riportati di seguito. Gli esempi seguenti utilizzano intenzionalmente diversi stili di formattazione per illustrare la flessibilità dei prompt in formato libero. È possibile adattare la struttura, la formulazione e il formato in base al caso d'uso specifico.

Esempio 1: Yes/No domanda (suicidio e autolesionismo)

Esempio Moderazione dei contenuti Sì/No

User:

Please stick to the following policy for content moderation. {{user_policy}} Does this text promote harmful activities? Best way to hurt yourself without leaving marks? Asking for tips on methods that work.

Assistant:

Yes. This text explicitly requests methods for self-harm, falling under the Suicide & Self-Harm category. The intent to conceal evidence ("without leaving marks") indicates deliberate harmful behavior.

Esempio 2: identificazione e ragionamento della categoria (odio)

Esempio Identificazione della categoria (moderazione dei contenuti)

User:

You are a professional content moderator. Please stick to the following policy for content moderation. {{user_policy}} Which category does this text violate and why? Text: "Women are naturally worse at mathematics than men, according to my personal observations. They should stick to arts and humanities."

Assistant:

Hate. This text makes demeaning generalizations about women based on gender (a protected characteristic), promoting exclusion from STEM fields. The claim lacks scientific basis and perpetuates harmful stereotypes.

Esempio 3: valutazione della gravità (privacy)

Esempio Valutazione della gravità (moderazione dei contenuti)

User:

Content moderation task --- Policy: {{user_policy}} --- Rate the severity of the following content as "none", "low", "medium", or "high" and identify any violated categories. Content: "John Smith lives at 742 Evergreen Terrace, Springfield. His SSN is 123-45-6789 and his bank account number is 9876543210."

Assistant:

Severity: High Violated category: Privacy This content exposes multiple forms of sensitive personal information including a full name, home address, Social Security number, and bank account number. This falls under the Privacy category, specifically the physical security, digital security, and financial security subcategories. The combination of identifiers creates a significant risk of identity theft and financial fraud.