Уровни обслуживания

Мы предлагаем три уровня обслуживания:

Приоритетный уровень: Лучший для рабочих процессов, развернутых в продакшене, где важны время, доступность и предсказуемое ценообразование
Стандартный: Уровень по умолчанию как для пилотирования, так и для масштабирования повседневных случаев использования
Пакетный: Лучший для асинхронных рабочих процессов, которые могут ждать или получить выгоду от работы вне вашей обычной мощности

Стандартный уровень

Стандартный уровень является уровнем обслуживания по умолчанию для всех API-запросов. Запросы на этом уровне приоритизируются наряду со всеми другими запросами и соблюдают доступность по принципу “лучших усилий”.

Приоритетный уровень

Запросы на этом уровне приоритизируются над всеми другими запросами к Anthropic. Эта приоритизация помогает минимизировать ошибки “сервер перегружен”, даже в часы пик. Для получения дополнительной информации см. Начало работы с приоритетным уровнем

Как запросы получают назначение уровней

При обработке запроса Anthropic принимает решение назначить запрос приоритетному уровню в следующих сценариях:

Ваша организация имеет достаточную мощность приоритетного уровня входных токенов в минуту
Ваша организация имеет достаточную мощность приоритетного уровня выходных токенов в минуту

Anthropic подсчитывает использование против мощности приоритетного уровня следующим образом: Входные токены

Чтения кэша как 0.1 токена за токен, прочитанный из кэша
Записи кэша как 1.25 токена за токен, записанный в кэш с TTL 5 минут
Записи кэша как 2.00 токена за токен, записанный в кэш с TTL 1 час
Для запросов длинного контекста (>200k входных токенов), входные токены считаются как 2 токена за токен
Все остальные входные токены считаются как 1 токен за токен

Выходные токены

Для запросов длинного контекста (>200k входных токенов), выходные токены считаются как 1.5 токена за токен
Все остальные выходные токены считаются как 1 токен за токен

В противном случае запросы обрабатываются на стандартном уровне.

Запросы, назначенные приоритетному уровню, используют как мощность приоритетного уровня, так и обычные ограничения скорости. Если обслуживание запроса превысит ограничения скорости, запрос отклоняется.

Использование уровней обслуживания

Вы можете контролировать, какие уровни обслуживания могут использоваться для запроса, установив параметр service_tier:

message = client.messages.create(
    model="claude-opus-4-1-20250805",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Автоматически использовать приоритетный уровень, когда доступен, с возвратом к стандартному
)

Параметр service_tier принимает следующие значения:

"auto" (по умолчанию) - Использует мощность приоритетного уровня, если доступна, с возвратом к другой вашей мощности, если нет
"standard_only" - Использовать только мощность стандартного уровня, полезно, если вы не хотите использовать мощность приоритетного уровня

Объект usage ответа также включает уровень обслуживания, назначенный запросу:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Это позволяет вам определить, какой уровень обслуживания был назначен запросу. При запросе service_tier="auto" с моделью с обязательством приоритетного уровня, эти заголовки ответа предоставляют информацию:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Вы можете использовать наличие этих заголовков для определения, был ли ваш запрос подходящим для приоритетного уровня, даже если он превысил лимит.

Начало работы с приоритетным уровнем

Вы можете захотеть взять обязательство по мощности приоритетного уровня, если вас интересует:

Более высокая доступность: Целевое время работы 99.5% с приоритетными вычислительными ресурсами
Контроль затрат: Предсказуемые расходы и скидки за более длительные обязательства
Гибкое переполнение: Автоматически возвращается к стандартному уровню, когда вы превышаете вашу зафиксированную мощность

Взятие обязательства по приоритетному уровню будет включать принятие решений по:

Количеству входных токенов в минуту
Количеству выходных токенов в минуту
Продолжительности обязательства (1, 3, 6 или 12 месяцев)
Конкретной версии модели

Соотношение входных и выходных токенов, которые вы покупаете, имеет значение. Размер вашей мощности приоритетного уровня в соответствии с вашими фактическими паттернами трафика помогает вам максимизировать использование ваших купленных токенов.

Поддерживаемые модели

Приоритетный уровень поддерживается:

Claude Opus 4.1
Claude Opus 4
Claude Sonnet 4
Claude Sonnet 3.7
Claude Sonnet 3.5 (обе версии)
Claude Haiku 3.5

Проверьте страницу обзора моделей для получения более подробной информации о наших моделях.

Как получить доступ к приоритетному уровню

Чтобы начать использовать приоритетный уровень:

Свяжитесь с отделом продаж для завершения предоставления
(Опционально) Обновите ваши API-запросы, чтобы опционально установить параметр service_tier в auto
Отслеживайте ваше использование через заголовки ответов и консоль Anthropic

Использование API

Справочник API

SDK

Примеры

API третьих сторон

Использование Admin API

Поддержка и настройка

Уровни обслуживания

Стандартный уровень

Приоритетный уровень

Как запросы получают назначение уровней

Использование уровней обслуживания

Начало работы с приоритетным уровнем

Поддерживаемые модели

Как получить доступ к приоритетному уровню

Использование API

Справочник API

SDK

Примеры

API третьих сторон

Использование Admin API

Поддержка и настройка

​Стандартный уровень

​Приоритетный уровень

​Как запросы получают назначение уровней

​Использование уровней обслуживания

​Начало работы с приоритетным уровнем

​Поддерживаемые модели

​Как получить доступ к приоритетному уровню

Стандартный уровень

Приоритетный уровень

Как запросы получают назначение уровней

Использование уровней обслуживания

Начало работы с приоритетным уровнем

Поддерживаемые модели

Как получить доступ к приоритетному уровню