Мы предлагаем три уровня обслуживания:

  • Приоритетный уровень: Лучший выбор для рабочих процессов, развернутых в продакшене, где важны время, доступность и предсказуемое ценообразование
  • Стандартный: Лучший выбор для неравномерного трафика или когда вы пробуете новую идею
  • Пакетный: Лучший выбор для асинхронных рабочих процессов, которые могут подождать или выиграть от нахождения за пределами вашей обычной мощности

Стандартный уровень

Стандартный уровень — это уровень обслуживания по умолчанию для всех API-запросов. Запросы на этом уровне обрабатываются наряду со всеми другими запросами и имеют доступность по принципу “максимальное усилие”.

Приоритетный уровень

Запросы на этом уровне имеют приоритет над всеми другими запросами к Anthropic. Эта приоритизация позволяет нам предоставить гарантию редкости ошибок “сервер перегружен”, даже в периоды пиковой нагрузки.

Для получения дополнительной информации см. Начало работы с Приоритетным уровнем

Как запросам назначаются уровни

При обработке запроса Anthropic решает назначить запрос на Приоритетный уровень в следующих сценариях:

  • У вашей организации достаточно мощности приоритетного уровня для входных токенов в минуту
  • У вашей организации достаточно мощности приоритетного уровня для выходных токенов в минуту

Anthropic учитывает использование мощности Приоритетного уровня следующим образом:

Входные токены

  • Чтение из кэша как 0.1 токена за каждый токен, прочитанный из кэша
  • Запись в кэш как 1.25 токена за каждый токен, записанный в кэш с TTL 5 минут
  • Запись в кэш как 2.00 токена за каждый токен, записанный в кэш с TTL 1 час
  • Все остальные входные токены считаются как 1 токен за токен

Выходные токены

  • 1 токен за токен

В противном случае запросы обрабатываются на стандартном уровне.

Запросы, назначенные на Приоритетный уровень, используют как мощность Приоритетного уровня, так и обычные ограничения скорости. Если обслуживание запроса превысит ограничения скорости, запрос отклоняется.

Использование уровней обслуживания

Вы можете контролировать, какие уровни обслуживания могут использоваться для запроса, установив параметр service_tier:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Автоматически использовать Приоритетный уровень, когда доступен, с возвратом к стандартному
)

Параметр service_tier принимает следующие значения:

  • "auto" (по умолчанию) - Использует мощность Приоритетного уровня, если она доступна, с возвратом к другой мощности, если нет
  • "standard_only" - Использует только мощность стандартного уровня, полезно, если вы не хотите использовать мощность Приоритетного уровня

Объект usage в ответе также включает уровень обслуживания, назначенный запросу:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Это позволяет определить, какой уровень обслуживания был назначен запросу.

При запросе service_tier="auto" с моделью с обязательством Приоритетного уровня, эти заголовки ответа предоставляют информацию:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Начало работы с Приоритетным уровнем

Вы можете захотеть взять на себя обязательство по мощности Приоритетного уровня, если вас интересует:

  • Повышенная доступность: SLA с доступностью 99.9% с приоритетными вычислительными ресурсами
  • Контроль затрат: Предсказуемые расходы и скидки за более длительные обязательства
  • Гибкое переполнение: Автоматический возврат к стандартному уровню при превышении вашей зарезервированной мощности

Обязательство по Приоритетному уровню будет включать решение о:

  • Количестве входных токенов в минуту
  • Количестве выходных токенов в минуту
  • Продолжительности обязательства (1, 3, 6 или 12 месяцев)
  • Конкретной версии модели

Соотношение входных и выходных токенов, которые вы покупаете, имеет значение. Подбор мощности Приоритетного уровня в соответствии с вашими фактическими схемами трафика помогает обеспечить полное использование всех приобретенных токенов.

Поддерживаемые модели

Приоритетный уровень поддерживается:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (обе версии)
  • Claude Haiku 3.5

Проверьте страницу обзора моделей для получения дополнительной информации о наших моделях.

Как получить доступ к Приоритетному уровню

Чтобы начать использовать Приоритетный уровень:

  1. Свяжитесь с отделом продаж через Консоль Anthropic для завершения подготовки
  2. (Опционально) Обновите ваши API-запросы, чтобы при необходимости установить параметр service_tier на auto
  3. Отслеживайте ваше использование через заголовки ответов и Консоль Anthropic