Модерация контента
Модерация контента является критически важным аспектом поддержания безопасной, уважительной и продуктивной среды в цифровых приложениях. В этом руководстве мы обсудим, как Claude можно использовать для модерации контента в вашем цифровом приложении.
Посетите наш сборник рецептов по модерации контента, чтобы увидеть пример реализации модерации контента с использованием Claude.
Перед началом работы с Claude
Решите, стоит ли использовать Claude для модерации контента
Вот несколько ключевых индикаторов того, что вам следует использовать LLM, такой как Claude, вместо традиционного подхода на основе ML или правил для модерации контента:
Создайте примеры контента для модерации
Перед разработкой решения для модерации контента сначала создайте примеры контента, который должен быть помечен, и контента, который не должен быть помечен. Убедитесь, что вы включили пограничные случаи и сложные сценарии, которые могут быть трудными для эффективной обработки системой модерации контента. После этого просмотрите свои примеры, чтобы создать четко определенный список категорий модерации. Например, примеры, созданные платформой социальных сетей, могут включать следующее:
Эффективная модерация этих примеров требует нюансированного понимания языка. В комментарии This movie was great, I really enjoyed it. The main actor really killed it!
система модерации контента должна распознать, что “killed it” — это метафора, а не указание на реальное насилие. И наоборот, несмотря на отсутствие явных упоминаний о насилии, комментарий Delete this post now or you better hide. I am coming after you and your family.
должен быть помечен системой модерации контента.
Список unsafe_categories
может быть настроен в соответствии с вашими конкретными потребностями. Например, если вы хотите предотвратить создание контента несовершеннолетними на вашем сайте, вы можете добавить “Underage Posting” в список.
Как модерировать контент с помощью Claude
Выберите подходящую модель Claude
При выборе модели важно учитывать размер ваших данных. Если затраты вызывают беспокойство, меньшая модель, такая как Claude Haiku 3, является отличным выбором из-за ее экономической эффективности. Ниже приведена оценка стоимости модерации текста для платформы социальных сетей, которая получает один миллиард постов в месяц:
-
Размер контента
- Постов в месяц: 1 млрд
- Символов на пост: 100
- Всего символов: 100 млрд
-
Оценка токенов
- Входные токены: 28,6 млрд (предполагая 1 токен на 3,5 символа)
- Процент помеченных сообщений: 3%
- Выходные токены на помеченное сообщение: 50
- Всего выходных токенов: 1,5 млрд
-
Оценка стоимости Claude Haiku 3
- Стоимость входных токенов: 2 860 MTok * $0,25/MTok = $715
- Стоимость выходных токенов: 1 500 MTok * $1,25/MTok = $1 875
- Ежемесячная стоимость: $715 + $1 875 = $2 590
-
Оценка стоимости Claude Sonnet 4
- Стоимость входных токенов: 2 860 MTok * $3,00/MTok = $8 580
- Стоимость выходных токенов: 1 500 MTok * $15,00/MTok = $22 500
- Ежемесячная стоимость: $8 580 + $22 500 = $31 080
explanation
из ответа.Создайте сильный запрос
Чтобы использовать Claude для модерации контента, Claude должен понимать требования к модерации вашего приложения. Давайте начнем с написания запроса, который позволит вам определить ваши потребности в модерации:
В этом примере функция moderate_message
содержит запрос оценки, который включает категории небезопасного контента и сообщение, которое мы хотим оценить. Запрос просит Claude оценить, должно ли сообщение быть модерировано, на основе определенных нами небезопасных категорий.
Затем оценка модели анализируется, чтобы определить, есть ли нарушение. Если есть нарушение, Claude также возвращает список нарушенных категорий, а также объяснение, почему сообщение небезопасно.
Оцените ваш запрос
Модерация контента — это проблема классификации. Таким образом, вы можете использовать те же методы, описанные в нашем сборнике рецептов по классификации, чтобы определить точность вашей системы модерации контента.
Еще одно соображение заключается в том, что вместо того, чтобы рассматривать модерацию контента как проблему бинарной классификации, вы можете создать несколько категорий для представления различных уровней риска. Создание нескольких уровней риска позволяет вам регулировать агрессивность вашей модерации. Например, вы можете автоматически блокировать запросы пользователей, которые считаются высокорисковыми, в то время как пользователи с множеством запросов среднего риска помечаются для проверки человеком.
Этот код реализует функцию assess_risk_level
, которая использует Claude для оценки уровня риска сообщения. Функция принимает сообщение и список небезопасных категорий в качестве входных данных.
Внутри функции для Claude генерируется запрос, включающий сообщение для оценки, небезопасные категории и конкретные инструкции для оценки уровня риска. Запрос инструктирует Claude отвечать JSON-объектом, который включает уровень риска, нарушенные категории и необязательное объяснение.
Этот подход обеспечивает гибкую модерацию контента путем присвоения уровней риска. Он может быть легко интегрирован в более крупную систему для автоматизации фильтрации контента или пометки комментариев для проверки человеком на основе их оцененного уровня риска. Например, при выполнении этого кода комментарий Delete this post now or you better hide. I am coming after you and your family.
идентифицируется как высокорисковый из-за его опасной угрозы. И наоборот, комментарий Stay away from the 5G cellphones!! They are using 5G to control you.
классифицируется как среднерисковый.
Разверните ваш запрос
Когда вы уверены в качестве вашего решения, пора развернуть его в производство. Вот некоторые лучшие практики, которым следует следовать при использовании модерации контента в производстве:
-
Предоставляйте четкую обратную связь пользователям: Когда ввод пользователя блокируется или ответ помечается из-за модерации контента, предоставляйте информативную и конструктивную обратную связь, чтобы помочь пользователям понять, почему их сообщение было помечено и как они могут перефразировать его соответствующим образом. В приведенных выше примерах кода это делается через тег
explanation
в ответе Claude. -
Анализируйте модерируемый контент: Отслеживайте типы контента, помечаемого вашей системой модерации, чтобы выявлять тенденции и потенциальные области для улучшения.
-
Непрерывно оценивайте и улучшайте: Регулярно оценивайте производительность вашей системы модерации контента, используя такие метрики, как точность и полнота. Используйте эти данные для итеративного улучшения ваших запросов модерации, ключевых слов и критериев оценки.
Улучшение производительности
В сложных сценариях может быть полезно рассмотреть дополнительные стратегии для улучшения производительности помимо стандартных методов инженерии запросов. Вот некоторые продвинутые стратегии:
Определите темы и предоставьте примеры
В дополнение к перечислению небезопасных категорий в запросе, дальнейшие улучшения могут быть достигнуты путем предоставления определений и фраз, связанных с каждой категорией.
Функция moderate_message_with_definitions
расширяет предыдущую функцию moderate_message
, позволяя каждой небезопасной категории быть связанной с подробным определением. Это происходит в коде путем замены списка unsafe_categories
из исходной функции на словарь unsafe_category_definitions
. Этот словарь сопоставляет каждую небезопасную категорию с соответствующим определением. И названия категорий, и их определения включены в запрос.
Примечательно, что определение для категории Specialized Advice
теперь указывает типы финансовых советов, которые должны быть запрещены. В результате комментарий It's a great time to invest in gold!
, который ранее прошел оценку moderate_message
, теперь вызывает нарушение.
Рассмотрите пакетную обработку
Чтобы снизить затраты в ситуациях, когда модерация в реальном времени не является необходимой, рассмотрите возможность модерации сообщений пакетами. Включите несколько сообщений в контекст запроса и попросите Claude оценить, какие сообщения должны быть модерированы.
В этом примере функция batch_moderate_messages
обрабатывает модерацию целого пакета сообщений с помощью одного вызова API Claude.
Внутри функции создается запрос, который включает список сообщений для оценки, определенные небезопасные категории контента и их описания. Запрос направляет Claude вернуть JSON-объект, перечисляющий все сообщения, содержащие нарушения. Каждое сообщение в ответе идентифицируется по его id, который соответствует позиции сообщения во входном списке.
Имейте в виду, что поиск оптимального размера пакета для ваших конкретных потребностей может потребовать некоторого экспериментирования. В то время как большие размеры пакетов могут снизить затраты, они также могут привести к небольшому снижению качества. Кроме того, вам может потребоваться увеличить параметр max_tokens
в вызове API Claude, чтобы вместить более длинные ответы. Для получения подробной информации о максимальном количестве токенов, которые может вывести выбранная вами модель, обратитесь к странице сравнения моделей.
Was this page helpful?