После определения критериев успеха следующим шагом является разработка оценок для измерения производительности LLM в соответствии с этими критериями. Это жизненно важная часть цикла инженерии промптов.

Это руководство сосредоточено на том, как разрабатывать ваши тестовые случаи.

Создание оценок и тестовых случаев

Принципы дизайна оценок

  1. Будьте специфичными к задаче: Разрабатывайте оценки, которые отражают распределение ваших реальных задач. Не забывайте учитывать крайние случаи!
  2. Автоматизируйте, когда это возможно: Структурируйте вопросы так, чтобы позволить автоматизированную оценку (например, множественный выбор, сопоставление строк, оценка кодом, оценка LLM).
  3. Приоритет объему над качеством: Больше вопросов с немного более низким сигналом автоматизированной оценки лучше, чем меньше вопросов с высококачественными оценками, выставленными людьми вручную.

Примеры оценок

Написание сотен тестовых случаев может быть трудным делом вручную! Попросите Claude помочь вам сгенерировать больше из базового набора примеров тестовых случаев.
Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!

Оценка оценок

При принятии решения о том, какой метод использовать для оценки оценок, выберите самый быстрый, самый надежный, самый масштабируемый метод:

  1. Оценка на основе кода: Самая быстрая и самая надежная, чрезвычайно масштабируемая, но также лишена нюансов для более сложных суждений, которые требуют менее жесткой основанности на правилах.

    • Точное совпадение: output == golden_answer
    • Совпадение строки: key_phrase in output
  2. Человеческая оценка: Самая гибкая и высококачественная, но медленная и дорогая. Избегайте, если возможно.

  3. Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложных суждений. Сначала протестируйте для обеспечения надежности, затем масштабируйте.

Советы для оценки на основе LLM

  • Имейте подробные, четкие рубрики: “Ответ должен всегда упоминать ‘Acme Inc.’ в первом предложении. Если этого нет, ответ автоматически оценивается как ‘неправильный’.”
    Данный случай использования, или даже конкретный критерий успеха для этого случая использования, может потребовать несколько рубрик для целостной оценки.
  • Эмпирический или конкретный: Например, проинструктируйте LLM выводить только ‘правильно’ или ‘неправильно’, или судить по шкале от 1 до 5. Чисто качественные оценки трудно оценить быстро и в масштабе.
  • Поощряйте рассуждения: Попросите LLM сначала подумать, прежде чем принимать решение об оценочном балле, а затем отбросьте рассуждения. Это увеличивает производительность оценки, особенно для задач, требующих сложного суждения.

Следующие шаги