Узнайте, как разрабатывать тестовые случаи для измерения производительности LLM в соответствии с вашими критериями успеха.
Примеры крайних случаев
Точность задачи (анализ настроений) - оценка точного совпадения
Согласованность (FAQ бот) - оценка косинусного сходства
Релевантность и связность (суммаризация) - оценка ROUGE-L
Тон и стиль (обслуживание клиентов) - шкала Лайкерта на основе LLM
Сохранение конфиденциальности (медицинский чатбот) - бинарная классификация на основе LLM
Использование контекста (помощник в разговоре) - порядковая шкала на основе LLM
output == golden_answer
key_phrase in output
Пример: Оценка на основе LLM