Moderazione dei contenuti
La moderazione dei contenuti è un aspetto fondamentale per mantenere un ambiente sicuro, rispettoso e produttivo nelle applicazioni digitali. In questa guida, discuteremo come Claude può essere utilizzato per moderare i contenuti all’interno della tua applicazione digitale.
Visita il nostro manuale sulla moderazione dei contenuti per vedere un esempio di implementazione della moderazione dei contenuti utilizzando Claude.
Prima di sviluppare con Claude
Decidere se utilizzare Claude per la moderazione dei contenuti
Ecco alcuni indicatori chiave che suggeriscono l’uso di un LLM come Claude invece di un approccio tradizionale basato su ML o regole per la moderazione dei contenuti:
Generare esempi di contenuti da moderare
Prima di sviluppare una soluzione di moderazione dei contenuti, crea prima esempi di contenuti che dovrebbero essere segnalati e contenuti che non dovrebbero essere segnalati. Assicurati di includere casi limite e scenari impegnativi che potrebbero essere difficili da gestire efficacemente per un sistema di moderazione dei contenuti. Successivamente, rivedi i tuoi esempi per creare un elenco ben definito di categorie di moderazione. Per esempio, gli esempi generati da una piattaforma di social media potrebbero includere quanto segue:
Moderare efficacemente questi esempi richiede una comprensione sfumata del linguaggio. Nel commento Questo film è stato fantastico, mi è piaciuto molto. L'attore principale ha davvero spaccato!
, il sistema di moderazione dei contenuti deve riconoscere che “spaccato” è una metafora, non un’indicazione di violenza reale. Al contrario, nonostante la mancanza di menzioni esplicite di violenza, il commento Cancella questo post ora o sarà meglio che ti nasconda. Vengo a prendere te e la tua famiglia.
dovrebbe essere segnalato dal sistema di moderazione dei contenuti.
La lista unsafe_categories
può essere personalizzata per adattarsi alle tue esigenze specifiche. Per esempio, se desideri impedire ai minori di creare contenuti sul tuo sito web, potresti aggiungere “Pubblicazione da Minorenne” alla lista.
Come moderare i contenuti usando Claude
Selezionare il modello Claude appropriato
Quando si seleziona un modello, è importante considerare la dimensione dei tuoi dati. Se i costi sono una preoccupazione, un modello più piccolo come Claude 3 Haiku è un’eccellente scelta grazie alla sua efficienza in termini di costi. Di seguito una stima del costo per moderare testo per una piattaforma social media che riceve un miliardo di post al mese:
-
Dimensione del contenuto
- Post al mese: 1mld
- Caratteri per post: 100
- Totale caratteri: 100mld
-
Token stimati
- Token in input: 28,6mld (assumendo 1 token ogni 3,5 caratteri)
- Percentuale di messaggi segnalati: 3%
- Token in output per messaggio segnalato: 50
- Totale token in output: 1,5mld
-
Costo stimato Claude 3 Haiku
- Costo token in input: 2.860 MTok * 715
- Costo token in output: 1.500 MTok * 1.875
- Costo mensile: 1.875 = $2.590
-
Costo stimato Claude 3.7 Sonnet
- Costo token in input: 2.860 MTok * 8.580
- Costo token in output: 1.500 MTok * 22.500
- Costo mensile: 22.500 = $31.080
explanation
dalla risposta.Costruire un prompt efficace
Per utilizzare Claude per la moderazione dei contenuti, Claude deve comprendere i requisiti di moderazione della tua applicazione. Iniziamo scrivendo un prompt che ti permetta di definire le tue esigenze di moderazione:
In questo esempio, la funzione moderate_message
contiene un prompt di valutazione che include le categorie di contenuti non sicuri e il messaggio che vogliamo valutare. Il prompt chiede a Claude di valutare se il messaggio dovrebbe essere moderato, basandosi sulle categorie non sicure che abbiamo definito.
La valutazione del modello viene poi analizzata per determinare se c’è una violazione. Se c’è una violazione, Claude restituisce anche una lista delle categorie violate, così come una spiegazione del perché il messaggio non è sicuro.
Valutare il tuo prompt
La moderazione dei contenuti è un problema di classificazione. Pertanto, puoi utilizzare le stesse tecniche delineate nel nostro manuale di classificazione per determinare l’accuratezza del tuo sistema di moderazione dei contenuti.
Un’ulteriore considerazione è che invece di trattare la moderazione dei contenuti come un problema di classificazione binaria, potresti invece creare multiple categorie per rappresentare vari livelli di rischio. Creare multipli livelli di rischio ti permette di regolare l’aggressività della tua moderazione. Per esempio, potresti voler bloccare automaticamente le query degli utenti considerate ad alto rischio, mentre gli utenti con molte query a rischio medio vengono segnalati per revisione umana.
Questo codice implementa una funzione assess_risk_level
che usa Claude per valutare il livello di rischio di un messaggio. La funzione accetta un messaggio e una lista di categorie non sicure come input.
All’interno della funzione, viene generato un prompt per Claude, includendo il messaggio da valutare, le categorie non sicure e istruzioni specifiche per valutare il livello di rischio. Il prompt istruisce Claude a rispondere con un oggetto JSON che include il livello di rischio, le categorie violate e una spiegazione opzionale.
Questo approccio permette una moderazione dei contenuti flessibile assegnando livelli di rischio. Può essere integrato perfettamente in un sistema più ampio per automatizzare il filtraggio dei contenuti o segnalare commenti per revisione umana basandosi sul loro livello di rischio valutato. Per esempio, quando si esegue questo codice, il commento Cancella questo post ora o sarà meglio che ti nasconda. Vengo a prendere te e la tua famiglia.
viene identificato come ad alto rischio a causa della sua pericolosa minaccia. Al contrario, il commento State lontani dai telefoni 5G!! Stanno usando il 5G per controllarvi.
è categorizzato come rischio medio.
Distribuire il tuo prompt
Una volta che sei sicuro della qualità della tua soluzione, è il momento di distribuirla in produzione. Ecco alcune best practice da seguire quando si usa la moderazione dei contenuti in produzione:
-
Fornire feedback chiaro agli utenti: Quando l’input dell’utente viene bloccato o una risposta viene segnalata a causa della moderazione dei contenuti, fornisci feedback informativi e costruttivi per aiutare gli utenti a capire perché il loro messaggio è stato segnalato e come possono riformularlo appropriatamente. Negli esempi di codice sopra, questo viene fatto attraverso il tag
explanation
nella risposta di Claude. -
Analizzare i contenuti moderati: Tieni traccia dei tipi di contenuti che vengono segnalati dal tuo sistema di moderazione per identificare tendenze e potenziali aree di miglioramento.
-
Valutare e migliorare continuamente: Valuta regolarmente le prestazioni del tuo sistema di moderazione dei contenuti usando metriche come il tracciamento della precisione e del richiamo. Usa questi dati per perfezionare iterativamente i tuoi prompt di moderazione, parole chiave e criteri di valutazione.
Migliorare le prestazioni
In scenari complessi, potrebbe essere utile considerare strategie aggiuntive per migliorare le prestazioni oltre alle tecniche standard di prompt engineering. Ecco alcune strategie avanzate:
Definire argomenti e fornire esempi
Oltre a elencare le categorie non sicure nel prompt, ulteriori miglioramenti possono essere fatti fornendo definizioni e frasi relative a ciascuna categoria.
La funzione moderate_message_with_definitions
espande la precedente funzione moderate_message
permettendo di associare ogni categoria non sicura a una definizione dettagliata. Questo avviene nel codice sostituendo la lista unsafe_categories
della funzione originale con un dizionario unsafe_category_definitions
. Questo dizionario mappa ogni categoria non sicura alla sua corrispondente definizione. Sia i nomi delle categorie che le loro definizioni sono inclusi nel prompt.
In particolare, la definizione per la categoria Consigli Specializzati
ora specifica i tipi di consigli finanziari che dovrebbero essere proibiti. Di conseguenza, il commento È un ottimo momento per investire in oro!
, che precedentemente aveva superato la valutazione moderate_message
, ora fa scattare una violazione.
Considerare l’elaborazione in batch
Per ridurre i costi in situazioni dove la moderazione in tempo reale non è necessaria, considera di moderare i messaggi in batch. Includi più messaggi nel contesto del prompt e chiedi a Claude di valutare quali messaggi dovrebbero essere moderati.
In questo esempio, la funzione batch_moderate_messages
gestisce la moderazione di un intero batch di messaggi con una singola chiamata API a Claude.
All’interno della funzione, viene creato un prompt che include la lista dei messaggi da valutare, le categorie di contenuti non sicuri definite e le loro descrizioni. Il prompt indica a Claude di restituire un oggetto JSON che elenca tutti i messaggi che contengono violazioni. Ogni messaggio nella risposta è identificato dal suo id, che corrisponde alla posizione del messaggio nella lista di input.
Tieni presente che trovare la dimensione ottimale del batch per le tue esigenze specifiche potrebbe richiedere qualche sperimentazione. Mentre dimensioni del batch più grandi possono abbassare i costi, potrebbero anche portare a un leggero calo della qualità. Inoltre, potresti dover aumentare il parametro max_tokens
nella chiamata API di Claude per accogliere risposte più lunghe. Per dettagli sul numero massimo di token che il tuo modello scelto può produrre, fai riferimento alla pagina di confronto dei modelli.
Was this page helpful?