После определения критериев успеха следующим шагом является разработка методов оценки для измерения производительности LLM в соответствии с этими критериями. Это важная часть цикла инженерии промптов.

Это руководство фокусируется на том, как разрабатывать тестовые примеры.

Создание оценок и тестовых примеров

Принципы разработки оценок

  1. Ориентируйтесь на конкретную задачу: Разрабатывайте оценки, которые отражают распределение ваших реальных задач. Не забывайте учитывать граничные случаи!
  2. Автоматизируйте, когда это возможно: Структурируйте вопросы так, чтобы обеспечить автоматическую оценку (например, множественный выбор, сопоставление строк, оценка кодом, оценка с помощью LLM).
  3. Отдавайте приоритет объему, а не качеству: Больше вопросов с автоматической оценкой, дающей немного меньше сигнала, лучше, чем меньше вопросов с высококачественными оценками, выполненными людьми вручную.

Примеры оценок

Написание сотен тестовых примеров может быть сложно делать вручную! Попросите Claude помочь вам сгенерировать больше из базового набора примеров тестовых случаев.
Если вы не знаете, какие методы оценки могут быть полезны для ваших критериев успеха, вы также можете провести мозговой штурм с Claude!

Оценка результатов

При выборе метода оценки результатов выбирайте самый быстрый, надежный и масштабируемый метод:

  1. Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также лишена нюансов для более сложных суждений, требующих меньшей жесткости, основанной на правилах.

    • Точное соответствие: output == golden_answer
    • Соответствие строки: key_phrase in output
  2. Оценка человеком: Наиболее гибкая и высококачественная, но медленная и дорогая. По возможности избегайте.

  3. Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложных суждений. Сначала проверьте надежность, затем масштабируйте.

Советы по оценке на основе LLM

  • Имейте подробные, четкие рубрики: “Ответ всегда должен упоминать ‘Acme Inc.’ в первом предложении. Если это не так, ответ автоматически оценивается как ‘неправильный’.”
    Данный случай использования или даже конкретный критерий успеха для этого случая может требовать нескольких рубрик для целостной оценки.
  • Эмпирические или конкретные: Например, проинструктируйте LLM выводить только ‘правильно’ или ‘неправильно’, или оценивать по шкале от 1 до 5. Чисто качественные оценки трудно быстро оценить в масштабе.
  • Поощряйте рассуждения: Попросите LLM сначала подумать, прежде чем решить оценку, а затем отбросить рассуждения. Это повышает производительность оценки, особ енно для задач, требующих сложных суждений.

Следующие шаги