После определения критериев успеха следующим шагом является разработка оценок для измерения производительности LLM по этим критериям. Это жизненно важная часть цикла разработки промптов.

Это руководство фокусируется на том, как разрабатывать ваши тестовые случаи.

Создание оценок и тестовых случаев

Принципы разработки оценок

  1. Ориентируйтесь на задачу: Разрабатывайте оценки, которые отражают распределение ваших реальных задач. Не забудьте учесть крайние случаи!
  2. Автоматизируйте, когда возможно: Структурируйте вопросы так, чтобы обеспечить автоматическую оценку (например, множественный выбор, сопоставление строк, оценка кодом, оценка LLM).
  3. Приоритет объема над качеством: Лучше больше вопросов с немного менее точной автоматической оценкой, чем меньше вопросов с высококачественными оценками, выполненными вручную.

Примеры оценок

Написать сотни тестовых случаев вручную может быть сложно! Попросите Claude помочь вам сгенерировать больше из базового набора примеров тестовых случаев.
Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете обсудить это с Claude!

Оценка результатов

При выборе метода оценки результатов выбирайте самый быстрый, надежный и масштабируемый метод:

  1. Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также не хватает нюансов для более сложных суждений, которые требуют меньшей жесткости, основанной на правилах.

    • Точное совпадение: output == golden_answer
    • Совпадение строк: key_phrase in output
  2. Оценка человеком: Самая гибкая и высококачественная, но медленная и дорогая. Избегайте, если возможно.

  3. Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложных суждений. Сначала проверьте надежность, затем масштабируйте.

Советы по оценке на основе LLM

  • Имейте подробные, четкие рубрики: “Ответ всегда должен упоминать ‘Acme Inc.’ в первом предложении. Если этого нет, ответ автоматически оценивается как ‘неправильный’.”
    Данный вариант использования или даже конкретный критерий успеха для этого варианта использования может потребовать нескольких рубрик для целостной оценки.
  • Эмпирический или конкретный: Например, проинструктируйте LLM выводить только ‘правильно’ или ‘неправильно’, или оценивать по шкале от 1 до 5. Чисто качественные оценки трудно быстро и масштабно оценить.
  • Поощряйте рассуждения: Попросите LLM сначала подумать, прежде чем решать оценочный балл, а затем отбросьте рассуждения. Это повышает эффективность оценки, особенно для задач, требующих сложных суждений.

Следующие шаги