Уровни обслуживания
Различные уровни обслуживания позволяют сбалансировать доступность, производительность и предсказуемые затраты в соответствии с потребностями вашего приложения.
Мы предлагаем три уровня обслуживания:
- Приоритетный уровень: Лучший выбор для рабочих процессов, развернутых в продакшене, где важны время, доступность и предсказуемое ценообразование
- Стандартный: Лучший выбор для неравномерного трафика или когда вы пробуете новую идею
- Пакетный: Лучший выбор для асинхронных рабочих процессов, которые могут подождать или выиграть от нахождения за пределами вашей обычной мощности
Стандартный уровень
Стандартный уровень — это уровень обслуживания по умолчанию для всех API-запросов. Запросы на этом уровне обрабатываются наряду со всеми другими запросами и имеют доступность по принципу “максимальное усилие”.
Приоритетный уровень
Запросы на этом уровне имеют приоритет над всеми другими запросами к Anthropic. Эта приоритизация позволяет нам предоставить гарантию редкости ошибок “сервер перегружен”, даже в периоды пиковой нагрузки.
Для получения дополнительной информации см. Начало работы с Приоритетным уровнем
Как запросам назначаются уровни
При обработке запроса Anthropic решает назначить запрос на Приоритетный уровень в следующих сценариях:
- У вашей организации достаточно мощности приоритетного уровня для входных токенов в минуту
- У вашей организации достаточно мощности приоритетного уровня для выходных токенов в минуту
Anthropic учитывает использование мощности Приоритетного уровня следующим образом:
Входные токены
- Чтение из кэша как 0.1 токена за каждый токен, прочитанный из кэша
- Запись в кэш как 1.25 токена за каждый токен, записанный в кэш с TTL 5 минут
- Запись в кэш как 2.00 токена за каждый токен, записанный в кэш с TTL 1 час
- Все остальные входные токены считаются как 1 токен за токен
Выходные токены
- 1 токен за токен
В противном случае запросы обрабатываются на стандартном уровне.
Запросы, назначенные на Приоритетный уровень, используют как мощность Приоритетного уровня, так и обычные ограничения скорости. Если обслуживание запроса превысит ограничения скорости, запрос отклоняется.
Использование уровней обслуживания
Вы можете контролировать, какие уровни обслуживания могут использоваться для запроса, установив параметр service_tier
:
Параметр service_tier
принимает следующие значения:
"auto"
(по умолчанию) - Использует мощность Приоритетного уровня, если она доступна, с возвратом к другой мощности, если нет"standard_only"
- Использует только мощность стандартного уровня, полезно, если вы не хотите использовать мощность Приоритетного уровня
Объект usage
в ответе также включает уровень обслуживания, назначенный запросу:
Это позволяет определить, какой уровень обслуживания был назначен запросу.
При запросе service_tier="auto"
с моделью с обязательством Приоритетного уровня, эти заголовки ответа предоставляют информацию:
Начало работы с Приоритетным уровнем
Вы можете захотеть взять на себя обязательство по мощности Приоритетного уровня, если вас интересует:
- Повышенная доступность: SLA с доступностью 99.9% с приоритетными вычислительными ресурсами
- Контроль затрат: Предсказуемые расходы и скидки за более длительные обязательства
- Гибкое переполнение: Автоматический возврат к стандартному уровню при превышении вашей зарезервированной мощности
Обязательство по Приоритетному уровню будет включать решение о:
- Количестве входных токенов в минуту
- Количестве выходных токенов в минуту
- Продолжительности обязательства (1, 3, 6 или 12 месяцев)
- Конкретной версии модели
Соотношение входных и выходных токенов, которые вы покупаете, имеет значение. Подбор мощности Приоритетного уровня в соответствии с вашими фактическими схемами трафика помогает обеспечить полное использование всех приобретенных токенов.
Поддерживаемые модели
Приоритетный уровень поддерживается:
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5 (обе версии)
- Claude Haiku 3.5
Проверьте страницу обзора моделей для получения дополнительной информации о наших моделях.
Как получить доступ к Приоритетному уровню
Чтобы начать использовать Приоритетный уровень:
- Свяжитесь с отделом продаж через Консоль Anthropic для завершения подготовки
- (Опционально) Обновите ваши API-запросы, чтобы при необходимости установить параметр
service_tier
наauto
- Отслеживайте ваше использование через заголовки ответов и Консоль Anthropic