После определения критериев успеха следующим шагом является разработка методов оценки для измерения производительности LLM относительно этих критериев. Это жизненно важная часть цикла инженерии промптов.

Это руководство фокусируется на том, как разрабатывать ваши тестовые случаи.

Создание оценок и тестовых случаев

Принципы разработки оценок

  1. Будьте специфичны для задачи: Разрабатывайте оценки, которые отражают распределение ваших реальных задач. Не забывайте учитывать граничные случаи!
  2. Автоматизируйте, когда возможно: Структурируйте вопросы так, чтобы позволить автоматическую оценку (например, множественный выбор, сопоставление строк, оценка кодом, оценка с помощью LLM).
  3. Приоритизируйте объем над качеством: Больше вопросов с автоматической оценкой немного более низкого качества лучше, чем меньше вопросов с высококачественными оценками, выполненными вручную.

Примеры оценок

Написание сотен тестовых случаев может быть сложным делом вручную! Попросите Claude помочь вам сгенерировать больше из базового набора примеров тестовых случаев.
Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!

Оценка тестов

При выборе метода оценки тестов выбирайте самый быстрый, надежный и масштабируемый метод:

  1. Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также не хватает нюансов для более сложных суждений, требующих меньшей жесткости на основе правил.

    • Точное совпадение: output == golden_answer
    • Совпадение строк: key_phrase in output
  2. Оценка человеком: Наиболее гибкая и качественная, но медленная и дорогая. По возможности избегайте.

  3. Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложных суждений. Сначала проверьте надежность, затем масштабируйте.

Советы по оценке на основе LLM

  • Имейте подробные, четкие рубрики: “Ответ всегда должен упоминать ‘Acme Inc.’ в первом предложении. Если этого нет, ответ автоматически оценивается как ‘неправильный’.”
    Данный случай использования или даже конкретный критерий успеха для этого случая может требовать нескольких рубрик для целостной оценки.
  • Эмпирический или конкретный: Например, проинструктируйте LLM выводить только ‘правильно’ или ‘неправильно’, или оценивать по шкале от 1 до 5. Чисто качественные оценки трудно оценивать быстро и в масштабе.
  • Поощряйте рассуждения: Попросите LLM сначала подумать перед принятием решения об оценке, а затем отбросьте рассуждения. Это повышает производительность оценки, особенно для задач, требующих сложного суждения.

Следующие шаги