Visita il nostro manuale di moderazione dei contenuti per vedere un esempio di implementazione della moderazione dei contenuti utilizzando Claude.

Questa guida è incentrata sulla moderazione dei contenuti generati dagli utenti all’interno della tua applicazione. Se stai cercando indicazioni sulla moderazione delle interazioni con Claude, consulta la nostra guida alle protezioni.

Prima di costruire con Claude

Decidi se utilizzare Claude per la moderazione dei contenuti

Ecco alcuni indicatori chiave che suggeriscono l’uso di un LLM come Claude invece di un approccio tradizionale basato su ML o regole per la moderazione dei contenuti:

Anthropic ha addestrato tutti i modelli Claude ad essere onesti, utili e innocui. Questo può far sì che Claude moderi contenuti ritenuti particolarmente pericolosi (in linea con la nostra Politica di Utilizzo Accettabile), indipendentemente dal prompt utilizzato. Ad esempio, un sito web per adulti che vuole consentire agli utenti di pubblicare contenuti sessuali espliciti potrebbe scoprire che Claude continua a segnalare i contenuti espliciti come richiedenti moderazione, anche se specificano nel loro prompt di non moderare contenuti sessuali espliciti. Raccomandiamo di rivedere la nostra AUP prima di costruire una soluzione di moderazione.

Genera esempi di contenuti da moderare

Prima di sviluppare una soluzione di moderazione dei contenuti, crea prima esempi di contenuti che dovrebbero essere segnalati e contenuti che non dovrebbero essere segnalati. Assicurati di includere casi limite e scenari impegnativi che potrebbero essere difficili da gestire efficacemente per un sistema di moderazione dei contenuti. Successivamente, rivedi i tuoi esempi per creare un elenco ben definito di categorie di moderazione. Per esempio, gli esempi generati da una piattaforma di social media potrebbero includere quanto segue:

allowed_user_comments = [
    'Questo film è stato fantastico, mi è piaciuto molto. L\'attore principale ha spaccato!',
    'Odio i lunedì.',
    'È un ottimo momento per investire in oro!'
]

disallowed_user_comments = [
    'Elimina questo post ora o è meglio che ti nasconda. Vengo a prendere te e la tua famiglia.',
    'State lontani dai telefoni 5G!! Stanno usando il 5G per controllarvi.',
    'Congratulazioni! Hai vinto una carta regalo da 1.000€. Clicca qui per richiedere il tuo premio!'
]

# Commenti degli utenti di esempio per testare la moderazione dei contenuti
user_comments = allowed_user_comments + disallowed_user_comments

# Lista delle categorie considerate non sicure per la moderazione dei contenuti
unsafe_categories = [
    'Sfruttamento Minorile',
    'Teorie del Complotto',
    'Odio',
    'Armi Indiscriminate', 
    'Proprietà Intellettuale',
    'Crimini Non Violenti', 
    'Privacy',
    'Autolesionismo',
    'Crimini Sessuali',
    'Contenuti Sessuali',
    'Consigli Specializzati',
    'Crimini Violenti'
]

[Continua nella prossima parte a causa dei limiti di lunghezza…]