Определите критерии успеха

Создание успешного приложения на основе LLM начинается с четкого определения критериев успеха. Как вы узнаете, когда ваше приложение достаточно хорошо для публикации? Наличие четких критериев успеха гарантирует, что ваши усилия по разработке промптов и оптимизации сосредоточены на достижении конкретных, измеримых целей.

Создание надежных критериев

Хорошие критерии успеха:

Конкретные: Четко определяют, чего вы хотите достичь. Вместо “хорошей производительности” укажите “точная классификация настроений”.

Измеримые: Используйте количественные показатели или четко определенные качественные шкалы. Числа обеспечивают ясность и масштабируемость, но качественные меры могут быть ценными, если они последовательно применяются вместе с количественными мерами.

Даже “нечеткие” темы, такие как этика и безопасность, можно количественно оценить:

	Критерии безопасности
Плохо	Безопасные результаты
Хорошо	Менее 0,1% результатов из 10 000 испытаний отмечены как токсичные нашим фильтром контента.

Примеры метрик и методов измерения

Достижимые: Основывайте свои цели на отраслевых эталонах, предыдущих экспериментах, исследованиях ИИ или экспертных знаниях. Ваши критерии успеха не должны быть нереалистичными для текущих возможностей передовых моделей.
Релевантные: Согласуйте ваши критерии с целью вашего приложения и потребностями пользователей. Точность цитирования может быть критически важной для медицинских приложений, но менее важной для повседневных чат-ботов.

Пример критериев точности задачи для анализа настроений

	Критерии
Плохо	Модель должна хорошо классифицировать настроения
Хорошо	Наша модель анализа настроений должна достичь F1-меры не менее 0,85 (Измеримо, Конкретно) на отложенном тестовом наборе* из 10 000 разнообразных постов Twitter (Релевантно), что на 5% лучше нашего текущего базового уровня (Достижимо).

Критерии

Плохо

Модель должна хорошо классифицировать настроения

Хорошо

Наша модель анализа настроений должна достичь F1-меры не менее 0,85 (Измеримо, Конкретно) на отложенном тестовом наборе* из 10 000 разнообразных постов Twitter (Релевантно), что на 5% лучше нашего текущего базового уровня (Достижимо).

*Подробнее об отложенных тестовых наборах в следующем разделе

Общие критерии успеха, которые следует учитывать

Вот некоторые критерии, которые могут быть важны для вашего случая использования. Этот список не является исчерпывающим.

Точность выполнения задачи

Согласованность

Релевантность и связность

Тон и стиль

Сохранение конфиденциальности

Использование контекста

Задержка

Цена

Большинство случаев использования потребуют многомерной оценки по нескольким критериям успеха.

Пример многомерных критериев для анализа настроений

	Критерии
Плохо	Модель должна хорошо классифицировать настроения
Хорошо	На отложенном тестовом наборе из 10 000 разнообразных постов Twitter наша модель анализа настроений должна достичь: - F1-меры не менее 0,85 - 99,5% результатов не являются токсичными - 90% ошибок вызывают неудобство, а не серьезную ошибку* - 95% времени отклика < 200 мс

Критерии

Плохо

Модель должна хорошо классифицировать настроения

Хорошо

На отложенном тестовом наборе из 10 000 разнообразных постов Twitter наша модель анализа настроений должна достичь:
- F1-меры не менее 0,85
- 99,5% результатов не являются токсичными
- 90% ошибок вызывают неудобство, а не серьезную ошибку*
- 95% времени отклика < 200 мс

*В реальности мы также определили бы, что означает “неудобство” и “серьезная ошибка”.

Следующие шаги

Мозговой штурм критериев

Проведите мозговой штурм критериев успеха для вашего случая использования с Claude на claude.ai.

Совет: Добавьте эту страницу в чат в качестве руководства для Claude!

Разработка оценок

Узнайте, как создавать надежные тестовые наборы для оценки производительности Claude по вашим критериям.

Первые шаги

Модели и цены

Узнать о Claude

Возможности

Инструменты

Протокол контекста модели (MCP)

Варианты использования

Инженерия промптов

Тестирование и оценка

Усилить защитные меры

Юридический центр

Определите критерии успеха

Создание надежных критериев

Общие критерии успеха, которые следует учитывать

Следующие шаги

Мозговой штурм критериев

Разработка оценок

Первые шаги

Модели и цены

Узнать о Claude

Возможности

Инструменты

Протокол контекста модели (MCP)

Варианты использования

Инженерия промптов

Тестирование и оценка

Усилить защитные меры

Юридический центр

​Создание надежных критериев

​Общие критерии успеха, которые следует учитывать

​Следующие шаги

Мозговой штурм критериев

Разработка оценок

Создание надежных критериев

Общие критерии успеха, которые следует учитывать

Следующие шаги