Ознакомьтесь с нашим сборником рецептов по оценкам, чтобы сразу перейти к примерам кода.

Оптимизация Claude для получения максимально возможной точности при выполнении задачи - это эмпирическая наука и процесс постоянного совершенствования. Независимо от того, пытаетесь ли вы определить, улучшило ли изменение вашей подсказки производительность Claude, тестируете ли вы различные модели Claude друг против друга или оцениваете, готов ли ваш вариант использования к производству, хорошо продуманная система оценки имеет решающее значение для успеха.

В этом руководстве мы проведем вас через жизненный цикл разработки подсказок, различные типы оценок (evals), их плюсы и минусы, а также предоставим некоторые рекомендации по выбору наилучшей оценки для вашего варианта использования.


Как использовать оценки

Оценки должны быть неотъемлемой частью всего производственного жизненного цикла при работе с LLM. Они обеспечивают количественную оценку производительности, которая позволяет отслеживать прогресс, выявлять проблемы и принимать решения на основе данных. Вот как оценки вписываются в различные этапы производственного жизненного цикла:

  1. Разработка подсказок: Процесс разработки подсказок должен начинаться с создания строгого набора оценок, а не с написания подсказки. Эти оценки послужат основой для измерения эффективности ваших подсказок и помогут вам итеративно улучшать их со временем.
  2. Разработка: По мере разработки вашего приложения или рабочего процесса с Claude используйте оценки, разработанные на этапе разработки подсказок, для регулярного тестирования производительности ваших подсказок, даже если сами подсказки не изменились. Части рабочего процесса вне и после подсказки могут непреднамеренно повлиять на производительность модели. Это поможет вам выявить любые проблемы на ранней стадии и убедиться, что ваши рабочие процессы работают должным образом.
  3. Финальное тестирование: Перед развертыванием вашего приложения или рабочего процесса в производство создайте как минимум один дополнительный набор оценок, который вы не использовали на этапе разработки. Этот удерживаемый набор оценок поможет вам оценить истинную производительность ваших подсказок и убедиться, что они не были переобучены на оценках, используемых во время разработки.
  4. Производство: Как только ваше приложение или рабочий процесс будут запущены в производство, продолжайте использовать оценки для мониторинга производительности и выявления любых потенциальных проблем. Вы также можете использовать оценки для сравнения производительности различных моделей Claude или версий ваших подсказок, чтобы принимать обоснованные решения об обновлениях и улучшениях.

Включая оценки на протяжении всего производственного жизненного цикла, вы можете гарантировать, что ваши подсказки работают оптимально и что ваше приложение или рабочий процесс обеспечивают наилучшие возможные результаты.


Части оценки

Оценки обычно состоят из четырех частей:

  1. Входная подсказка: Подсказка, которая подается в модель. Claude генерирует завершение (также известное как выход) на основе этой подсказки. Часто при разработке оценок столбец ввода будет содержать набор переменных входных данных, которые подаются в шаблон подсказки во время тестирования.
  2. Выход: Текст, сгенерированный путем прогона входной подсказки через оцениваемую модель.
  3. Золотой ответ: Правильный ответ, с которым сравнивается выход модели. Золотой ответ может быть обязательным точным совпадением или примером идеального ответа, предназначенного для того, чтобы дать оценщику (человеку или LLM) точку сравнения для выставления оценки.
  4. Оценка: Числовое значение, сгенерированное одним из методов оценки, обсуждаемых ниже, которое представляет, насколько хорошо модель справилась с вопросом.

Методы оценки

Есть два аспекта оценок, которые могут быть трудоемкими и дорогостоящими: написание пар вопросов и золотых ответов, а также оценивание. В то время как написание вопросов и золотых ответов обычно является единовременными фиксированными затратами, оценивание - это затраты, которые вы будете нести каждый раз, когда вы повторно запускаете свою оценку, что вы, вероятно, будете делать часто. В результате создание оценок, которые можно быстро и дешево оценить, должно быть в центре ваших проектных решений.

Существует три распространенных способа оценки:

  1. Оценка на основе кода: Это включает в себя использование стандартного кода (в основном сопоставление строк и регулярные выражения) для оценки выходных данных модели. Распространенные версии включают проверку точного совпадения с ответом или проверку того, что строка содержит некоторую ключевую фразу(ы). Это лучший метод оценки, если вы можете разработать оценку, которая позволяет это сделать, поскольку он быстрый и очень надежный. Однако многие оценки не позволяют использовать такой стиль оценки.
  2. Оценка человеком: Человек смотрит на сгенерированный моделью ответ, сравнивает его с золотым ответом и выставляет оценку. Это наиболее эффективный метод оценки, поскольку его можно использовать практически для любой задачи, но он также невероятно медленный и дорогой, особенно если вы создали большую оценку. По возможности вы должны стараться избегать разработки оценок, требующих оценки человеком.
  3. Оценка на основе модели: Claude отлично справляется с самооценкой и может использоваться для оценки широкого спектра задач, которые ранее могли потребовать участия людей, таких как анализ тона в творческом письме или точность в свободной форме ответов на вопросы. Вы можете сделать это, написав подсказку оценщика для Claude.

Типы оценок

Существует несколько типов оценок, которые вы можете использовать для измерения производительности Claude при выполнении задачи. Каждый тип имеет свои сильные и слабые стороны.

Тип оценкиОписаниеПлюсыМинусы
Вопрос с множественным выбором (MCQ)Закрытые вопросы с несколькими ответами, по крайней мере один из которых является правильным- Легко автоматизировать- Оценивает общие знания по теме- Четкий ключ ответа- Легко понять, как выглядит точный ответ- Потенциальная утечка обучения, если тест является публичным- Ограничен в оценке более сложных или открытых задач
Точное совпадение (EM)Проверяет, является ли ответ модели точно такой же строкой, как и правильный ответ- Легко автоматизировать- Высокая точность в оценке конкретных знаний или задач- Легко понять, как выглядит точный ответ- Ограничен в оценке более сложных или открытых задач- Может не учитывать вариации правильных ответов
Совпадение строкПроверяет, содержит ли ответ модели строку ответа- Легко автоматизировать- Оценивает наличие конкретной информации в выходных данных модели- Может не учитывать полный контекст или смысл ответа модели- Может приводить к ложноположительным или ложноотрицательным результатам
Открытый ответ (OA)Открытые вопросы, которые могут иметь несколько возможных решений или требуют многоэтапных процессов для оценки- Отлично подходит для оценки продвинутых знаний, неявных знаний или качественной открытой производительности- Может оцениваться людьми или моделями- Сложнее автоматизировать- Требует четкой схемы оценки- Оценка на основе модели может быть менее точной, чем оценка человеком

Лучшие практики для разработки оценок

При разработке оценок для вашего конкретного варианта использования имейте в виду следующие лучшие практики:

  1. Оценки, специфичные для задачи: По возможности делайте ваши оценки специфичными для вашей задачи и старайтесь, чтобы распределение в вашей оценке представляло реальное распределение вопросов и сложности вопросов.
  2. Тестирование оценки на основе модели: Единственный способ узнать, может ли оценщик на основе модели хорошо справиться с оценкой вашей задачи, - это попробовать его и прочитать несколько образцов, чтобы увидеть, подходит ли ваша задача.
  3. Автоматизируйте, когда это возможно: Часто умный дизайн может сделать оценку автоматизируемой. Старайтесь структурировать вопросы таким образом, чтобы обеспечить автоматизированную оценку, при этом оставаясь верным задаче. Переформатирование вопросов в форму множественного выбора - распространенная тактика.
  4. Отдавайте предпочтение объему, а не качеству: В целом, предпочитайте больший объем и более низкое качество вопросов очень низкому объему с высоким качеством.
  5. Используйте сборник рецептов по оценкам: Наш сборник рецептов по оценкам предоставляет реализованные примеры различных типов оценок, выполняемых людьми и моделями, включая руководство и код, который вы можете скопировать.

Следуя этим лучшим практикам и выбирая подходящий тип оценки для вашего варианта использования, вы можете эффективно измерять производительность Claude и принимать обоснованные решения для улучшения ваших подсказок и рабочих процессов.