La moderazione dei contenuti è un aspetto critico per mantenere un ambiente sicuro, rispettoso e produttivo nelle applicazioni digitali. In questa guida, discuteremo come Claude può essere utilizzato per moderare i contenuti all’interno della tua applicazione digitale.
Visita il nostro cookbook sulla moderazione dei contenuti per vedere un esempio di implementazione della moderazione dei contenuti utilizzando Claude.
Desideri un'implementazione rapida ed economica
Desideri sia comprensione semantica che decisioni rapide
Hai bisogno di decisioni politiche coerenti
Le tue politiche di moderazione probabilmente cambieranno o si evolveranno nel tempo
Richiedi un ragionamento interpretabile per le tue decisioni di moderazione
Hai bisogno di supporto multilingue senza mantenere modelli separati
Richiedi supporto multimodale
Questo film è stato fantastico, mi è piaciuto molto. L'attore principale ha davvero spaccato!
, il sistema di moderazione dei contenuti deve riconoscere che “spaccato” è una metafora, non un’indicazione di violenza reale. Al contrario, nonostante la mancanza di menzioni esplicite di violenza, il commento Elimina questo post ora o è meglio che ti nasconda. Sto venendo a prendere te e la tua famiglia.
dovrebbe essere segnalato dal sistema di moderazione dei contenuti.
L’elenco unsafe_categories
può essere personalizzato per adattarsi alle tue esigenze specifiche. Ad esempio, se desideri impedire ai minori di creare contenuti sul tuo sito web, potresti aggiungere “Pubblicazione da parte di Minori” all’elenco.
explanation
dalla risposta.moderate_message
contiene un prompt di valutazione che include le categorie di contenuti non sicuri e il messaggio che desideriamo valutare. Il prompt chiede a Claude di valutare se il messaggio dovrebbe essere moderato, in base alle categorie non sicure che abbiamo definito.
La valutazione del modello viene quindi analizzata per determinare se c’è una violazione. Se c’è una violazione, Claude restituisce anche un elenco delle categorie violate, nonché una spiegazione del motivo per cui il messaggio non è sicuro.
assess_risk_level
che utilizza Claude per valutare il livello di rischio di un messaggio. La funzione accetta un messaggio e un elenco di categorie non sicure come input.
All’interno della funzione, viene generato un prompt per Claude, che include il messaggio da valutare, le categorie non sicure e istruzioni specifiche per valutare il livello di rischio. Il prompt istruisce Claude a rispondere con un oggetto JSON che include il livello di rischio, le categorie violate e una spiegazione opzionale.
Questo approccio consente una moderazione dei contenuti flessibile assegnando livelli di rischio. Può essere integrato senza problemi in un sistema più ampio per automatizzare il filtraggio dei contenuti o segnalare commenti per la revisione umana in base al loro livello di rischio valutato. Ad esempio, quando si esegue questo codice, il commento Elimina questo post ora o è meglio che ti nasconda. Sto venendo a prendere te e la tua famiglia.
viene identificato come ad alto rischio a causa della sua pericolosa minaccia. Al contrario, il commento State lontani dai telefoni cellulari 5G!! Stanno usando il 5G per controllarvi.
è classificato come rischio medio.
explanation
nella risposta di Claude.
moderate_message_with_definitions
espande la precedente funzione moderate_message
consentendo di associare ogni categoria non sicura a una definizione dettagliata. Questo avviene nel codice sostituendo l’elenco unsafe_categories
della funzione originale con un dizionario unsafe_category_definitions
. Questo dizionario mappa ogni categoria non sicura alla sua corrispondente definizione. Sia i nomi delle categorie che le loro definizioni sono inclusi nel prompt.
In particolare, la definizione per la categoria Consigli Specializzati
ora specifica i tipi di consigli finanziari che dovrebbero essere proibiti. Di conseguenza, il commento È un ottimo momento per investire in oro!
, che in precedenza aveva superato la valutazione moderate_message
, ora attiva una violazione.
batch_moderate_messages
gestisce la moderazione di un intero batch di messaggi con una singola chiamata API a Claude.
All’interno della funzione, viene creato un prompt che include l’elenco dei messaggi da valutare, le categorie di contenuti non sicuri definite e le loro descrizioni. Il prompt indica a Claude di restituire un oggetto JSON che elenca tutti i messaggi che contengono violazioni. Ogni messaggio nella risposta è identificato dal suo id, che corrisponde alla posizione del messaggio nell’elenco di input.
Tieni presente che trovare la dimensione ottimale del batch per le tue esigenze specifiche potrebbe richiedere alcune sperimentazioni. Mentre dimensioni di batch più grandi possono abbassare i costi, potrebbero anche portare a un leggero calo della qualità. Inoltre, potrebbe essere necessario aumentare il parametro max_tokens
nella chiamata API di Claude per accogliere risposte più lunghe. Per dettagli sul numero massimo di token che il modello scelto può produrre, consulta la pagina di confronto dei modelli.