Уровни обслуживания
Различные уровни обслуживания позволяют вам сбалансировать доступность, производительность и предсказуемые затраты в зависимости от потребностей вашего приложения.
Мы предлагаем три уровня обслуживания:
- Приоритетный уровень: Лучший для рабочих процессов, развернутых в продакшене, где важны время, доступность и предсказуемое ценообразование
- Стандартный: Лучший для всплесков трафика или когда вы пробуете новую идею
- Пакетный: Лучший для асинхронных рабочих процессов, которые могут ждать или получают выгоду от работы вне вашей обычной мощности
Стандартный уровень
Стандартный уровень является уровнем обслуживания по умолчанию для всех API-запросов. Запросы на этом уровне приоритизируются наряду со всеми другими запросами и соблюдают доступность по принципу “лучших усилий”.
Приоритетный уровень
Запросы на этом уровне приоритизируются над всеми другими запросами к Anthropic. Эта приоритизация помогает минимизировать ошибки “сервер перегружен”, даже в часы пик.
Для получения дополнительной информации см. Начало работы с приоритетным уровнем
Как запросы получают назначение уровней
При обработке запроса Anthropic принимает решение назначить запрос приоритетному уровню в следующих сценариях:
- Ваша организация имеет достаточную мощность приоритетного уровня входных токенов в минуту
- Ваша организация имеет достаточную мощность приоритетного уровня выходных токенов в минуту
Anthropic учитывает использование против мощности приоритетного уровня следующим образом:
Входные токены
- Чтения кэша как 0.1 токена за токен, прочитанный из кэша
- Записи кэша как 1.25 токена за токен, записанный в кэш с TTL 5 минут
- Записи кэша как 2.00 токена за токен, записанный в кэш с TTL 1 час
- Все остальные входные токены - 1 токен за токен
Выходные токены
- 1 токен за токен
В противном случае запросы обрабатываются на стандартном уровне.
Запросы, назначенные приоритетному уровню, используют как мощность приоритетного уровня, так и обычные ограничения скорости. Если обслуживание запроса превысит ограничения скорости, запрос отклоняется.
Использование уровней обслуживания
Вы можете контролировать, какие уровни обслуживания могут использоваться для запроса, установив параметр service_tier
:
Параметр service_tier
принимает следующие значения:
"auto"
(по умолчанию) - Использует мощность приоритетного уровня, если доступна, с возвратом к другой вашей мощности, если нет"standard_only"
- Использовать только мощность стандартного уровня, полезно, если вы не хотите использовать мощность приоритетного уровня
Объект usage
ответа также включает уровень обслуживания, назначенный запросу:
Это позволяет вам определить, какой уровень обслуживания был назначен запросу.
При запросе service_tier="auto"
с моделью с обязательством приоритетного уровня, эти заголовки ответа предоставляют информацию:
Вы можете использовать наличие этих заголовков для определения, был ли ваш запрос подходящим для приоритетного уровня, даже если он превысил лимит.
Начало работы с приоритетным уровнем
Вы можете захотеть взять обязательство по мощности приоритетного уровня, если вас интересует:
- Более высокая доступность: Целевое время работы 99.5% с приоритетными вычислительными ресурсами
- Контроль затрат: Предсказуемые расходы и скидки за более длительные обязательства
- Гибкое переполнение: Автоматически возвращается к стандартному уровню, когда вы превышаете свою зафиксированную мощность
Взятие обязательства по приоритетному уровню будет включать принятие решения о:
- Количестве входных токенов в минуту
- Количестве выходных токенов в минуту
- Продолжительности обязательства (1, 3, 6 или 12 месяцев)
- Конкретной версии модели
Соотношение входных и выходных токенов, которые вы покупаете, имеет значение. Размер вашей мощности приоритетного уровня в соответствии с вашими фактическими паттернами трафика помогает максимизировать использование ваших приобретенных токенов.
Поддерживаемые модели
Приоритетный уровень поддерживается:
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5 (обе версии)
- Claude Haiku 3.5
Проверьте страницу обзора моделей для получения более подробной информации о наших моделях.
Как получить доступ к приоритетному уровню
Чтобы начать использовать приоритетный уровень:
- Свяжитесь с отделом продаж для завершения предоставления
- (Необязательно) Обновите ваши API-запросы, чтобы опционально установить параметр
service_tier
вauto
- Отслеживайте ваше использование через заголовки ответов и консоль Anthropic