Modération de contenu
La modération de contenu est un aspect essentiel du maintien d’un environnement sûr, respectueux et productif dans les applications numériques. Dans ce guide, nous verrons comment Claude peut être utilisé pour modérer le contenu au sein de votre application numérique.
Visitez notre guide de modération de contenu pour voir un exemple d’implémentation de modération de contenu utilisant Claude.
Avant de construire avec Claude
Décider si utiliser Claude pour la modération de contenu
Voici quelques indicateurs clés qui suggèrent d’utiliser un LLM comme Claude plutôt qu’une approche traditionnelle basée sur le ML ou les règles pour la modération de contenu :
Générer des exemples de contenu à modérer
Avant de développer une solution de modération de contenu, créez d’abord des exemples de contenu qui devrait être signalé et de contenu qui ne devrait pas l’être. Assurez-vous d’inclure des cas limites et des scénarios difficiles qui peuvent être complexes à gérer efficacement pour un système de modération de contenu. Ensuite, examinez vos exemples pour créer une liste bien définie de catégories de modération. Par exemple, les exemples générés par une plateforme de médias sociaux pourraient inclure :
La modération efficace de ces exemples nécessite une compréhension nuancée du langage. Dans le commentaire Ce film était génial, je l'ai vraiment apprécié. L'acteur principal a vraiment tué !
, le système de modération de contenu doit reconnaître que “tué” est une métaphore, et non une indication de violence réelle. À l’inverse, malgré l’absence de mentions explicites de violence, le commentaire Supprime ce post maintenant ou tu ferais mieux de te cacher. Je viens pour toi et ta famille.
devrait être signalé par le système de modération de contenu.
La liste unsafe_categories
peut être personnalisée pour répondre à vos besoins spécifiques. Par exemple, si vous souhaitez empêcher les mineurs de créer du contenu sur votre site web, vous pourriez ajouter “Publication par des mineurs” à la liste.
Comment modérer le contenu en utilisant Claude
Sélectionner le bon modèle Claude
Lors de la sélection d’un modèle, il est important de considérer la taille de vos données. Si les coûts sont une préoccupation, un modèle plus petit comme Claude 3 Haiku est un excellent choix en raison de son rapport coût-efficacité. Voici une estimation du coût pour modérer le texte pour une plateforme de médias sociaux qui reçoit un milliard de publications par mois :
-
Taille du contenu
- Publications par mois : 1 Md
- Caractères par publication : 100
- Total des caractères : 100 Md
-
Tokens estimés
- Tokens d’entrée : 28,6 Md (en supposant 1 token pour 3,5 caractères)
- Pourcentage de messages signalés : 3%
- Tokens de sortie par message signalé : 50
- Total des tokens de sortie : 1,5 Md
-
Coût estimé pour Claude 3 Haiku
- Coût des tokens d’entrée : 2 860 MTok * 0,25
- Coût des tokens de sortie : 1 500 MTok * 1,25
- Coût mensuel : 715 = 2 590 $
-
Coût estimé pour Claude 3.7 Sonnet
- Coût des tokens d’entrée : 2 860 MTok * 3,00
- Coût des tokens de sortie : 1 500 MTok * 15,00
- Coût mensuel : 8 580 = 31 080 $
explanation
de la réponse.Construire un prompt solide
Pour utiliser Claude pour la modération de contenu, Claude doit comprendre les exigences de modération de votre application. Commençons par écrire un prompt qui vous permet de définir vos besoins en matière de modération :
Dans cet exemple, la fonction moderate_message
contient un prompt d’évaluation qui inclut les catégories de contenu dangereux et le message que nous souhaitons évaluer. Le prompt demande à Claude d’évaluer si le message doit être modéré, en fonction des catégories dangereuses que nous avons définies.
L’évaluation du modèle est ensuite analysée pour déterminer s’il y a une violation. S’il y a une violation, Claude renvoie également une liste des catégories violées, ainsi qu’une explication sur la raison pour laquelle le message est dangereux.
Évaluer votre prompt
La modération de contenu est un problème de classification. Ainsi, vous pouvez utiliser les mêmes techniques décrites dans notre guide de classification pour déterminer la précision de votre système de modération de contenu.
Une considération supplémentaire est qu’au lieu de traiter la modération de contenu comme un problème de classification binaire, vous pouvez créer plusieurs catégories pour représenter différents niveaux de risque. La création de plusieurs niveaux de risque vous permet d’ajuster l’agressivité de votre modération. Par exemple, vous pourriez vouloir bloquer automatiquement les requêtes des utilisateurs jugées à haut risque, tandis que les utilisateurs ayant de nombreuses requêtes à risque moyen sont signalés pour un examen humain.
Ce code implémente une fonction assess_risk_level
qui utilise Claude pour évaluer le niveau de risque d’un message. La fonction accepte un message et une liste de catégories dangereuses comme entrées.
Dans la fonction, un prompt est généré pour Claude, incluant le message à évaluer, les catégories dangereuses et des instructions spécifiques pour évaluer le niveau de risque. Le prompt demande à Claude de répondre avec un objet JSON qui inclut le niveau de risque, les catégories violées et une explication optionnelle.
Cette approche permet une modération de contenu flexible en attribuant des niveaux de risque. Elle peut être intégrée de manière transparente dans un système plus large pour automatiser le filtrage du contenu ou signaler les commentaires pour un examen humain en fonction de leur niveau de risque évalué. Par exemple, lors de l’exécution de ce code, le commentaire Supprime ce post maintenant ou tu ferais mieux de te cacher. Je viens pour toi et ta famille.
est identifié comme à haut risque en raison de sa menace dangereuse. À l’inverse, le commentaire Évitez les téléphones 5G !! Ils utilisent la 5G pour vous contrôler.
est catégorisé comme à risque moyen.
Déployer votre prompt
Une fois que vous êtes confiant dans la qualité de votre solution, il est temps de la déployer en production. Voici quelques bonnes pratiques à suivre lors de l’utilisation de la modération de contenu en production :
-
Fournir un retour clair aux utilisateurs : Lorsque l’entrée d’un utilisateur est bloquée ou qu’une réponse est signalée en raison de la modération de contenu, fournissez un retour informatif et constructif pour aider les utilisateurs à comprendre pourquoi leur message a été signalé et comment ils peuvent le reformuler de manière appropriée. Dans les exemples de code ci-dessus, cela est fait via la balise
explanation
dans la réponse de Claude. -
Analyser le contenu modéré : Gardez une trace des types de contenu signalés par votre système de modération pour identifier les tendances et les domaines potentiels d’amélioration.
-
Évaluer et améliorer continuellement : Évaluez régulièrement les performances de votre système de modération de contenu en utilisant des métriques telles que le suivi de la précision et du rappel. Utilisez ces données pour affiner itérativement vos prompts de modération, mots-clés et critères d’évaluation.
Améliorer les performances
Dans des scénarios complexes, il peut être utile de considérer des stratégies supplémentaires pour améliorer les performances au-delà des techniques d’ingénierie de prompt standard. Voici quelques stratégies avancées :
Définir les sujets et fournir des exemples
En plus de lister les catégories dangereuses dans le prompt, des améliorations supplémentaires peuvent être apportées en fournissant des définitions et des phrases liées à chaque catégorie.
La fonction moderate_message_with_definitions
étend la fonction moderate_message
précédente en permettant à chaque catégorie dangereuse d’être associée à une définition détaillée. Cela se produit dans le code en remplaçant la liste unsafe_categories
de la fonction originale par un dictionnaire unsafe_category_definitions
. Ce dictionnaire associe chaque catégorie dangereuse à sa définition correspondante. Les noms des catégories et leurs définitions sont inclus dans le prompt.
Notamment, la définition de la catégorie Conseils spécialisés
spécifie maintenant les types de conseils financiers qui devraient être interdits. En conséquence, le commentaire C'est le bon moment pour investir dans l'or !
, qui avait précédemment passé l’évaluation moderate_message
, déclenche maintenant une violation.
Considérer le traitement par lots
Pour réduire les coûts dans les situations où la modération en temps réel n’est pas nécessaire, envisagez de modérer les messages par lots. Incluez plusieurs messages dans le contexte du prompt et demandez à Claude d’évaluer quels messages doivent être modérés.
Dans cet exemple, la fonction batch_moderate_messages
gère la modération d’un lot entier de messages avec un seul appel à l’API Claude.
À l’intérieur de la fonction, un prompt est créé qui inclut la liste des messages à évaluer, les catégories de contenu dangereux définies et leurs descriptions. Le prompt demande à Claude de renvoyer un objet JSON listant tous les messages qui contiennent des violations. Chaque message dans la réponse est identifié par son id, qui correspond à la position du message dans la liste d’entrée.
Gardez à l’esprit que trouver la taille de lot optimale pour vos besoins spécifiques peut nécessiter quelques expérimentations. Bien que des tailles de lot plus importantes puissent réduire les coûts, elles peuvent aussi entraîner une légère diminution de la qualité. De plus, vous devrez peut-être augmenter le paramètre max_tokens
dans l’appel à l’API Claude pour accommoder des réponses plus longues. Pour plus de détails sur le nombre maximum de tokens que votre modèle choisi peut produire, consultez la page de comparaison des modèles.
Was this page helpful?