La moderación de contenido es un aspecto crítico para mantener un entorno seguro, respetuoso y productivo en aplicaciones digitales. En esta guía, discutiremos cómo se puede utilizar Claude para moderar contenido dentro de tu aplicación digital.
Visita nuestro libro de recetas de moderación de contenido para ver un ejemplo de implementación de moderación de contenido usando Claude.
Quieres una implementación rentable y rápida
Deseas tanto comprensión semántica como decisiones rápidas
Necesitas decisiones de política consistentes
Es probable que tus políticas de moderación cambien o evolucionen con el tiempo
Requieres un razonamiento interpretable para tus decisiones de moderación
Necesitas soporte multilingüe sin mantener modelos separados
Requieres soporte multimodal
Esta película fue genial, realmente la disfruté. ¡El actor principal realmente la mató!
, el sistema de moderación de contenido necesita reconocer que “la mató” es una metáfora, no una indicación de violencia real. Por el contrario, a pesar de la falta de menciones explícitas de violencia, el comentario Borra esta publicación ahora o mejor escóndete. Voy por ti y tu familia.
debería ser marcado por el sistema de moderación de contenido.
La lista unsafe_categories
puede ser personalizada para adaptarse a tus necesidades específicas. Por ejemplo, si deseas evitar que menores creen contenido en tu sitio web, podrías añadir “Publicación de Menores de Edad” a la lista.
explanation
de la respuesta.moderate_message
contiene un prompt de evaluación que incluye las categorías de contenido inseguro y el mensaje que deseamos evaluar. El prompt le pide a Claude que evalúe si el mensaje debe ser moderado, basado en las categorías inseguras que definimos.
La evaluación del modelo se analiza luego para determinar si hay una violación. Si hay una violación, Claude también devuelve una lista de categorías violadas, así como una explicación de por qué el mensaje es inseguro.
assess_risk_level
que utiliza Claude para evaluar el nivel de riesgo de un mensaje. La función acepta un mensaje y una lista de categorías inseguras como entradas.
Dentro de la función, se genera un prompt para Claude, que incluye el mensaje a evaluar, las categorías inseguras e instrucciones específicas para evaluar el nivel de riesgo. El prompt instruye a Claude a responder con un objeto JSON que incluye el nivel de riesgo, las categorías violadas y una explicación opcional.
Este enfoque permite una moderación de contenido flexible mediante la asignación de niveles de riesgo. Se puede integrar perfectamente en un sistema más grande para automatizar el filtrado de contenido o marcar comentarios para revisión humana según su nivel de riesgo evaluado. Por ejemplo, al ejecutar este código, el comentario Borra esta publicación ahora o mejor escóndete. Voy por ti y tu familia.
se identifica como de alto riesgo debido a su peligrosa amenaza. Por el contrario, el comentario ¡Mantente alejado de los teléfonos celulares 5G! Están usando el 5G para controlarte.
se categoriza como de riesgo medio.
explanation
en la respuesta de Claude.
moderate_message_with_definitions
amplía la función anterior moderate_message
al permitir que cada categoría insegura se empareje con una definición detallada. Esto ocurre en el código al reemplazar la lista unsafe_categories
de la función original con un diccionario unsafe_category_definitions
. Este diccionario mapea cada categoría insegura a su definición correspondiente. Tanto los nombres de las categorías como sus definiciones se incluyen en el prompt.
Notablemente, la definición para la categoría Asesoramiento Especializado
ahora especifica los tipos de asesoramiento financiero que deberían estar prohibidos. Como resultado, el comentario ¡Es un buen momento para invertir en oro!
, que anteriormente pasó la evaluación de moderate_message
, ahora desencadena una violación.
batch_moderate_messages
maneja la moderación de un lote completo de mensajes con una sola llamada a la API de Claude.
Dentro de la función, se crea un prompt que incluye la lista de mensajes a evaluar, las categorías de contenido inseguro definidas y sus descripciones. El prompt dirige a Claude a devolver un objeto JSON que enumera todos los mensajes que contienen violaciones. Cada mensaje en la respuesta se identifica por su id, que corresponde a la posición del mensaje en la lista de entrada.
Ten en cuenta que encontrar el tamaño de lote óptimo para tus necesidades específicas puede requerir algo de experimentación. Si bien los tamaños de lote más grandes pueden reducir los costos, también podrían conducir a una ligera disminución en la calidad. Además, es posible que debas aumentar el parámetro max_tokens
en la llamada a la API de Claude para acomodar respuestas más largas. Para obtener detalles sobre el número máximo de tokens que tu modelo elegido puede generar, consulta la página de comparación de modelos.