После определения критериев успеха следующим шагом является разработка методов оценки для измерения производительности LLM относительно этих критериев. Это жизненно важная часть цикла инженерии промптов.

Это руководство фокусируется на том, как разрабатывать ваши тестовые случаи.

Создание оценок и тестовых случаев

Принципы разработки оценок

  1. Будьте ориентированы на задачу: Разрабатывайте оценки, которые отражают распределение ваших реальных задач. Не забывайте учитывать граничные случаи!
  2. Автоматизируйте, когда возможно: Структурируйте вопросы так, чтобы обеспечить автоматическую оценку (например, множественный выбор, сопоставление строк, оценка кодом, оценка с помощью LLM).
  3. Приоритет количества над качеством: Больше вопросов с немного более низким сигналом автоматизированной оценки лучше, чем меньше вопросов с высококачественными оценками, выполненными человеком вручную.

Примеры оценок

Написание сотен тестовых случаев может быть сложным делом! Попросите Claude помочь вам сгенерировать больше на основе базового набора примеров тестовых случаев.
Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!

Оценка результатов

При выборе метода оценки результатов выбирайте самый быстрый, надежный и масштабируемый метод:

  1. Оценка на основе кода: Самая быстрая и надежная, отлично масштабируется, но также не хватает нюансов для более сложных суждений, требующих меньшей жесткости правил.

    • Точное совпадение: output == golden_answer
    • Совпадение строк: key_phrase in output
  2. Оценка человеком: Наиболее гибкая и качественная, но медленная и дорогая. По возможности избегайте.

  3. Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложных суждений. Сначала проверьте надежность, затем масштабируйте.

Советы по оценке на основе LLM

  • Имейте подробные, четкие рубрики: “Ответ всегда должен упоминать ‘Acme Inc.’ в первом предложении. Если этого нет, ответ автоматически оценивается как ‘неправильный’.”
    Данный случай использования или даже конкретный критерий успеха для этого случая может требовать нескольких рубрик для целостной оценки.
  • Эмпирически или конкретно: Например, проинструктируйте LLM выводить только ‘правильно’ или ‘неправильно’, или оценивать по шкале от 1 до 5. Чисто качественные оценки трудно оценивать быстро и в масштабе.
  • Поощряйте рассуждения: Попросите LLM сначала подумать перед принятием оценочного балла, а затем отбросьте рассуждения. Это повышает производительность оценки, особенно для задач,требующих сложного суждения.

Следующие шаги