Использование инструмента оценки

Доступ к функции оценки

Чтобы начать работу с инструментом оценки:

Откройте Anthropic Console и перейдите в редактор промптов.
После составления промпта найдите вкладку ‘Evaluate’ в верхней части экрана.

Убедитесь, что ваш промпт включает как минимум 1-2 динамические переменные, используя синтаксис двойных фигурных скобок: {{variable}}. Это необходимо для создания наборов тестов для оценки.

Генерация промптов

Console предлагает встроенный генератор промптов, работающий на Claude Opus 4:

Нажмите 'Generate Prompt'

Нажатие на вспомогательный инструмент ‘Generate Prompt’ откроет модальное окно, которое позволяет ввести информацию о вашей задаче.

Опишите вашу задачу

Опишите желаемую задачу (например, “Сортировка входящих запросов службы поддержки клиентов”) с любым количеством деталей по вашему желанию. Чем больше контекста вы включите, тем лучше Claude сможет адаптировать сгенерированный промпт к вашим конкретным потребностям.

Сгенерируйте ваш промпт

Нажатие оранжевой кнопки ‘Generate Prompt’ внизу позволит Claude сгенерировать для вас качественный промпт. Затем вы можете дополнительно улучшить эти промпты, используя экран оценки в Console.

Эта функция упрощает создание промптов с соответствующим синтаксисом переменных для оценки.

Создание тестовых случаев

Когда вы получаете доступ к экрану оценки, у вас есть несколько вариантов для создания тестовых случаев:

Нажмите кнопку ’+ Add Row’ в левом нижнем углу, чтобы вручную добавить случай.
Используйте функцию ‘Generate Test Case’, чтобы Claude автоматически генерировал для вас тестовые случаи.
Импортируйте тестовые случаи из CSV-файла.

Чтобы использовать функцию ‘Generate Test Case’:

Нажмите на 'Generate Test Case'

Claude будет генерировать тестовые случаи для вас, по одной строке за каждое нажатие кнопки.

Редактирование логики генерации (опционально)

Вы также можете редактировать логику генерации тестовых случаев, нажав на стрелку выпадающего списка справа от кнопки ‘Generate Test Case’, затем на ‘Show generation logic’ в верхней части всплывающего окна переменных. Возможно, вам придется нажать `Generate’ в правом верхнем углу этого окна, чтобы заполнить начальную логику генерации.

Редактирование этого позволяет настраивать и точно настраивать тестовые случаи, которые генерирует Claude, для большей точности и конкретности.

Вот пример заполненного экрана оценки с несколькими тестовыми случаями:

Если вы обновите исходный текст промпта, вы можете повторно запустить весь набор оценок с новым промптом, чтобы увидеть, как изменения влияют на производительность во всех тестовых случаях.

Советы по эффективной оценке

Структура промпта для оценки

Чтобы максимально использовать инструмент оценки, структурируйте ваши промпты с четкими форматами ввода и вывода. Например:

В этой задаче вы будете генерировать милую историю из одного предложения, которая включает два элемента: цвет и звук.
Цвет, который нужно включить в историю:
<color>
{{COLOR}}
</color>
Звук, который нужно включить в историю:
<sound>
{{SOUND}}
</sound>
Вот шаги для создания истории:
1. Подумайте об объекте, животном или сцене, которые обычно ассоциируются с указанным цветом. Например, если цвет "синий", вы можете подумать о небе, океане или синей птице.
2. Представьте простое действие, событие или сцену, включающую цветной объект/животное/сцену, которые вы определили, и предоставленный звук. Например, если цвет "синий", а звук "свист", вы можете представить синюю птицу, насвистывающую мелодию.
3. Опишите действие, событие или сцену, которую вы представили, в одном кратком предложении. Сосредоточьтесь на том, чтобы предложение было милым, выразительным и образным. Например: "Веселая синяя птица насвистывала веселую мелодию, паря в лазурном небе."
Пожалуйста, ограничьте вашу историю только одним предложением. Стремитесь сделать это предложение как можно более очаровательным и увлекательным, естественно включая заданный цвет и звук.
Напишите вашу завершенную историю из одного предложения внутри тегов <story>.

Эта структура упрощает варьирование входных данных ({{COLOR}} и {{SOUND}}) и последовательную оценку выходных данных.

Используйте вспомогательный инструмент ‘Generate a prompt’ в Console для быстрого создания промптов с соответствующим синтаксисом переменных для оценки.

Понимание и сравнение результатов

Инструмент оценки предлагает несколько функций, которые помогут вам улучшить ваши промпты:

Сравнение бок о бок: Сравнивайте выходные данные двух или более промптов, чтобы быстро увидеть влияние ваших изменений.
Оценка качества: Оценивайте качество ответов по 5-балльной шкале, чтобы отслеживать улучшения в качестве ответов для каждого промпта.
Версионирование промптов: Создавайте новые версии вашего промпта и повторно запускайте набор тестов для быстрой итерации и улучшения результатов.

Просматривая результаты по тестовым случаям и сравнивая различные версии промптов, вы можете выявлять закономерности и более эффективно вносить обоснованные корректировки в ваш промпт.

Начните оценивать ваши промпты сегодня, чтобы создавать более надежные AI-приложения с Claude!

Разработка тестовых случаев Снижение задержки

On this page

Доступ к функции оценки
Генерация промптов
Создание тестовых случаев
Советы по эффективной оценке
Понимание и сравнение результатов

Первые шаги

Модели и цены

Узнать о Claude

Возможности

Инструменты

Протокол контекста модели (MCP)

Варианты использования

Инженерия промптов

Тестирование и оценка

Усилить защитные меры

Юридический центр

Использование инструмента оценки

Доступ к функции оценки

Генерация промптов

Создание тестовых случаев

Советы по эффективной оценке

Понимание и сравнение результатов

Первые шаги

Модели и цены

Узнать о Claude

Возможности

Инструменты

Протокол контекста модели (MCP)

Варианты использования

Инженерия промптов

Тестирование и оценка

Усилить защитные меры

Юридический центр

​Доступ к функции оценки

​Генерация промптов

​Создание тестовых случаев

​Советы по эффективной оценке

​Понимание и сравнение результатов

Доступ к функции оценки

Генерация промптов

Создание тестовых случаев

Советы по эффективной оценке

Понимание и сравнение результатов