Создание надежных эмпирических оценок
Узнайте, как разрабатывать тестовые случаи для измерения производительности LLM в соответствии с вашими критериями успеха.
После определения критериев успеха следующим шагом является разработка оценок для измерения производительности LLM в соответствии с этими критериями. Это жизненно важная часть цикла инженерии промптов.
Это руководство сосредоточено на том, как разрабатывать ваши тестовые случаи.
Создание оценок и тестовых случаев
Принципы дизайна оценок
- Будьте специфичными к задаче: Разрабатывайте оценки, которые отражают распределение ваших реальных задач. Не забывайте учитывать крайние случаи!
- Автоматизируйте, когда это возможно: Структурируйте вопросы так, чтобы позволить автоматизированную оценку (например, множественный выбор, сопоставление строк, оценка кодом, оценка LLM).
- Приоритет объему над качеством: Больше вопросов с немного более низким сигналом автоматизированной оценки лучше, чем меньше вопросов с высококачественными оценками, выставленными людьми вручную.
Примеры оценок
Оценка оценок
При принятии решения о том, какой метод использовать для оценки оценок, выберите самый быстрый, самый надежный, самый масштабируемый метод:
-
Оценка на основе кода: Самая быстрая и самая надежная, чрезвычайно масштабируемая, но также лишена нюансов для более сложных суждений, которые требуют менее жесткой основанности на правилах.
- Точное совпадение:
output == golden_answer
- Совпадение строки:
key_phrase in output
- Точное совпадение:
-
Человеческая оценка: Самая гибкая и высококачественная, но медленная и дорогая. Избегайте, если возможно.
-
Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложных суждений. Сначала протестируйте для обеспечения надежности, затем масштабируйте.
Советы для оценки на основе LLM
- Имейте подробные, четкие рубрики: “Ответ должен всегда упоминать ‘Acme Inc.’ в первом предложении. Если этого нет, ответ автоматически оценивается как ‘неправильный’.”
Данный случай использования, или даже конкретный критерий успеха для этого случая использования, может потребовать несколько рубрик для целостной оценки.
- Эмпирический или конкретный: Например, проинструктируйте LLM выводить только ‘правильно’ или ‘неправильно’, или судить по шкале от 1 до 5. Чисто качественные оценки трудно оценить быстро и в масштабе.
- Поощряйте рассуждения: Попросите LLM сначала подумать, прежде чем принимать решение об оценочном балле, а затем отбросьте рассуждения. Это увеличивает производительность оценки, особенно для задач, требующих сложного суждения.