Moderación de contenido
La moderación de contenido es un aspecto crítico para mantener un entorno seguro, respetuoso y productivo en las aplicaciones digitales. En esta guía, analizaremos cómo se puede utilizar Claude para moderar contenido dentro de su aplicación digital.
Visite nuestro libro de recetas de moderación de contenido para ver un ejemplo de implementación de moderación de contenido usando Claude.
Antes de construir con Claude
Decida si usar Claude para la moderación de contenido
Aquí hay algunos indicadores clave de que debería usar un LLM como Claude en lugar de un enfoque tradicional de ML o basado en reglas para la moderación de contenido:
Genere ejemplos de contenido para moderar
Antes de desarrollar una solución de moderación de contenido, primero cree ejemplos de contenido que debería ser marcado y contenido que no debería ser marcado. Asegúrese de incluir casos límite y escenarios desafiantes que puedan ser difíciles de manejar efectivamente para un sistema de moderación de contenido. Después, revise sus ejemplos para crear una lista bien definida de categorías de moderación. Por ejemplo, los ejemplos generados por una plataforma de redes sociales podrían incluir lo siguiente:
Moderar efectivamente estos ejemplos requiere una comprensión matizada del lenguaje. En el comentario, Esta película fue genial, realmente la disfruté. ¡El actor principal la mató!
, el sistema de moderación de contenido necesita reconocer que “la mató” es una metáfora, no una indicación de violencia real. Por el contrario, a pesar de la falta de menciones explícitas de violencia, el comentario Borra esta publicación ahora o mejor escóndete. Voy por ti y tu familia.
debería ser marcado por el sistema de moderación de contenido.
La lista unsafe_categories
puede personalizarse para adaptarse a sus necesidades específicas. Por ejemplo, si desea evitar que los menores creen contenido en su sitio web, podría agregar “Publicación de Menores” a la lista.
Cómo moderar contenido usando Claude
Seleccione el modelo Claude adecuado
Al seleccionar un modelo, es importante considerar el tamaño de sus datos. Si los costos son una preocupación, un modelo más pequeño como Claude 3 Haiku es una excelente opción debido a su rentabilidad. A continuación se muestra una estimación del costo para moderar texto para una plataforma de redes sociales que recibe mil millones de publicaciones por mes:
-
Tamaño del contenido
- Publicaciones por mes: 1bn
- Caracteres por publicación: 100
- Total de caracteres: 100bn
-
Tokens estimados
- Tokens de entrada: 28.6bn (asumiendo 1 token por 3.5 caracteres)
- Porcentaje de mensajes marcados: 3%
- Tokens de salida por mensaje marcado: 50
- Total de tokens de salida: 1.5bn
-
Costo estimado de Claude 3 Haiku
- Costo de tokens de entrada: 2,860 MTok * $0.25/MTok = $715
- Costo de tokens de salida: 1,500 MTok * $1.25/MTok = $1,875
- Costo mensual: $715 + $1,875 = $2,590
-
Costo estimado de Claude 3.7 Sonnet
- Costo de tokens de entrada: 2,860 MTok * $3.00/MTok = $8,580
- Costo de tokens de salida: 1,500 MTok * $15.00/MTok = $22,500
- Costo mensual: $8,580 + $22,500 = $31,080
explanation
de la respuesta.Construya un prompt sólido
Para usar Claude para la moderación de contenido, Claude debe entender los requisitos de moderación de su aplicación. Comencemos escribiendo un prompt que le permita definir sus necesidades de moderación:
En este ejemplo, la función moderate_message
contiene un prompt de evaluación que incluye las categorías de contenido inseguro y el mensaje que deseamos evaluar. El prompt le pide a Claude que evalúe si el mensaje debe ser moderado, basado en las categorías inseguras que definimos.
La evaluación del modelo luego se analiza para determinar si hay una violación. Si hay una violación, Claude también devuelve una lista de categorías violadas, así como una explicación de por qué el mensaje es inseguro.
Evalúe su prompt
La moderación de contenido es un problema de clasificación. Por lo tanto, puede usar las mismas técnicas descritas en nuestro libro de recetas de clasificación para determinar la precisión de su sistema de moderación de contenido.
Una consideración adicional es que en lugar de tratar la moderación de contenido como un problema de clasificación binaria, puede crear múltiples categorías para representar varios niveles de riesgo. Crear múltiples niveles de riesgo le permite ajustar la agresividad de su moderación. Por ejemplo, es posible que desee bloquear automáticamente las consultas de usuarios que se consideren de alto riesgo, mientras que los usuarios con muchas consultas de riesgo medio son marcados para revisión humana.
Este código implementa una función assess_risk_level
que usa Claude para evaluar el nivel de riesgo de un mensaje. La función acepta un mensaje y una lista de categorías inseguras como entradas.
Dentro de la función, se genera un prompt para Claude, incluyendo el mensaje a evaluar, las categorías inseguras e instrucciones específicas para evaluar el nivel de riesgo. El prompt instruye a Claude a responder con un objeto JSON que incluye el nivel de riesgo, las categorías violadas y una explicación opcional.
Este enfoque permite una moderación de contenido flexible al asignar niveles de riesgo. Se puede integrar perfectamente en un sistema más grande para automatizar el filtrado de contenido o marcar comentarios para revisión humana según su nivel de riesgo evaluado. Por ejemplo, al ejecutar este código, el comentario Borra esta publicación ahora o mejor escóndete. Voy por ti y tu familia.
se identifica como de alto riesgo debido a su amenaza peligrosa. Por el contrario, el comentario ¡Aléjate de los teléfonos celulares 5G!! Están usando el 5G para controlarte.
se categoriza como de riesgo medio.
Implemente su prompt
Una vez que esté seguro de la calidad de su solución, es momento de implementarla en producción. Aquí hay algunas mejores prácticas a seguir cuando se usa la moderación de contenido en producción:
-
Proporcione retroalimentación clara a los usuarios: Cuando se bloquea la entrada del usuario o se marca una respuesta debido a la moderación de contenido, proporcione retroalimentación informativa y constructiva para ayudar a los usuarios a entender por qué se marcó su mensaje y cómo pueden reformularlo apropiadamente. En los ejemplos de código anteriores, esto se hace a través de la etiqueta
explanation
en la respuesta de Claude. -
Analice el contenido moderado: Mantenga un registro de los tipos de contenido que está marcando su sistema de moderación para identificar tendencias y áreas potenciales de mejora.
-
Evalúe y mejore continuamente: Evalúe regularmente el rendimiento de su sistema de moderación de contenido usando métricas como el seguimiento de precisión y recuperación. Use estos datos para refinar iterativamente sus prompts de moderación, palabras clave y criterios de evaluación.
Mejore el rendimiento
En escenarios complejos, puede ser útil considerar estrategias adicionales para mejorar el rendimiento más allá de las técnicas estándar de ingeniería de prompts. Aquí hay algunas estrategias avanzadas:
Defina temas y proporcione ejemplos
Además de listar las categorías inseguras en el prompt, se pueden hacer mejoras adicionales proporcionando definiciones y frases relacionadas con cada categoría.
La función moderate_message_with_definitions
expande la función anterior moderate_message
al permitir que cada categoría insegura se empareje con una definición detallada. Esto ocurre en el código al reemplazar la lista unsafe_categories
de la función original con un diccionario unsafe_category_definitions
. Este diccionario mapea cada categoría insegura a su definición correspondiente. Tanto los nombres de las categorías como sus definiciones se incluyen en el prompt.
Notablemente, la definición para la categoría Consejos Especializados
ahora especifica los tipos de consejos financieros que deberían estar prohibidos. Como resultado, el comentario ¡Es un buen momento para invertir en oro!
, que anteriormente pasó la evaluación de moderate_message
, ahora activa una violación.
Considere el procesamiento por lotes
Para reducir costos en situaciones donde la moderación en tiempo real no es necesaria, considere moderar mensajes en lotes. Incluya múltiples mensajes dentro del contexto del prompt y pídale a Claude que evalúe qué mensajes deben ser moderados.
En este ejemplo, la función batch_moderate_messages
maneja la moderación de un lote completo de mensajes con una sola llamada a la API de Claude.
Dentro de la función, se crea un prompt que incluye la lista de mensajes a evaluar, las categorías de contenido inseguro definidas y sus descripciones. El prompt dirige a Claude a devolver un objeto JSON que lista todos los mensajes que contienen violaciones. Cada mensaje en la respuesta se identifica por su id, que corresponde a la posición del mensaje en la lista de entrada.
Tenga en cuenta que encontrar el tamaño óptimo de lote para sus necesidades específicas puede requerir algo de experimentación. Si bien los tamaños de lote más grandes pueden reducir los costos, también pueden llevar a una ligera disminución en la calidad. Además, es posible que necesite aumentar el parámetro max_tokens
en la llamada a la API de Claude para acomodar respuestas más largas. Para obtener detalles sobre el número máximo de tokens que su modelo elegido puede generar, consulte la página de comparación de modelos.
Was this page helpful?