У нас есть два типа ограничений:

  1. Ограничения расходов устанавливают максимальную месячную стоимость, которую организация может понести за использование API.
  2. Ограничения скорости устанавливают максимальное количество запросов к API, которые организация может сделать за определенный период времени.

Мы применяем настроенные службой ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.

Эти ограничения применяются как к использованию Standard, так и Priority Tier. Для получения дополнительной информации о Priority Tier, который предлагает улучшенные уровни обслуживания в обмен на обязательные расходы, см. Уровни обслуживания.

О наших ограничениях

  • Ограничения предназначены для предотвращения злоупотреблений API, минимизируя при этом влияние на общие шаблоны использования клиентов.
  • Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и скорости.
  • Ваша организация будет автоматически повышать уровни по мере достижения определенных пороговых значений при использовании API. Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Ограничений в Anthropic Console.
  • Вы можете столкнуться с ограничениями скорости за более короткие временные интервалы. Например, скорость 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить ограничение скорости и привести к ошибкам ограничения скорости.
  • Ограничения, изложенные ниже, являются нашими стандартными ограничениями уровня. Если вы ищете более высокие, пользовательские ограничения или Priority Tier для улучшенных уровней обслуживания, обратитесь к отделу продаж через Anthropic Console.
  • Мы используем алгоритм корзины токенов для ограничения скорости. Это означает, что ваша пропускная способность непрерывно пополняется до вашего максимального лимита, а не сбрасывается через фиксированные интервалы.
  • Все ограничения, описанные здесь, представляют максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для уменьшения непреднамеренных перерасходов и обеспечения справедливого распределения ресурсов среди пользователей.

Ограничения расходов

Каждый уровень использования имеет ограничение на то, сколько вы можете потратить на API каждый календарный месяц. Как только вы достигнете ограничения расходов вашего уровня, пока вы не квалифицируетесь для следующего уровня, вам придется ждать до следующего месяца, чтобы снова использовать API.

Чтобы квалифицироваться для следующего уровня, вы должны соответствовать требованию депозита. Чтобы минимизировать риск избыточного финансирования вашего аккаунта, вы не можете внести депозит больше вашего месячного лимита расходов.

Требования для повышения уровня

Уровень использованияПокупка кредитовМаксимальное использование в месяц
Уровень 1$5$100
Уровень 2$40$500
Уровень 3$200$1,000
Уровень 4$400$5,000
Ежемесячное выставление счетовН/ДН/Д

Ограничения скорости

Наши ограничения скорости для Messages API измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса модели. Если вы превысите любое из ограничений скорости, вы получите ошибку 429, описывающую, какое ограничение скорости было превышено, вместе с заголовком retry-after, указывающим, сколько времени ждать.

Ограничения скорости ITPM оцениваются в начале каждого запроса, и оценка корректируется во время запроса, чтобы отразить фактическое количество использованных входных токенов. Окончательная корректировка учитывает input_tokens и cache_creation_input_tokens в ограничениях скорости ITPM, в то время как cache_read_input_tokens не учитываются (хотя они все еще тарифицируются). В некоторых случаях cache_read_input_tokens учитываются в ограничениях скорости ITPM.

Ограничения скорости OTPM оцениваются на основе max_tokens в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов. Если вы сталкиваетесь с ограничениями OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens, чтобы лучше приблизить размер ваших завершений.

Ограничения скорости применяются отдельно для каждой модели; поэтому вы можете использовать разные модели до их соответствующих ограничений одновременно. Вы можете проверить свои текущие ограничения скорости и поведение в Anthropic Console.

Для запросов с длинным контекстом (>200K токенов) при использовании бета-заголовка context-1m-2025-08-07 с Claude Sonnet 4 применяются отдельные ограничения скорости. См. Ограничения скорости длинного контекста ниже.

МодельМаксимальные запросы в минуту (RPM)Максимальные входные токены в минуту (ITPM)Максимальные выходные токены в минуту (OTPM)
Claude Opus 4.x*5030,0008,000
Claude Sonnet 45030,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22
5040,0008,000
Claude Sonnet 3.5
2024-06-20
5040,0008,000
Claude Haiku 3.55050,00010,000
Claude Opus 35020,0004,000
Claude Sonnet 35040,0008,000
Claude Haiku 35050,00010,000

* - Ограничение скорости Opus 4.x является общим ограничением, которое применяется к объединенному трафику как Opus 4.0, так и Opus 4.1.

† - Ограничение учитывает cache_read_input_tokens в использовании ITPM.

Message Batches API

Message Batches API имеет свой собственный набор ограничений скорости, которые разделяются между всеми моделями. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части Message Batch. Вы можете создать Message Batch, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом ограничении. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.

Максимальные запросы в минуту (RPM)Максимальные пакетные запросы в очереди обработкиМаксимальные пакетные запросы на пакет
50100,000100,000

Ограничения скорости длинного контекста

При использовании Claude Sonnet 4 с включенным окном контекста 1M токенов, следующие выделенные ограничения скорости применяются к запросам, превышающим 200K токенов.

Окно контекста 1M токенов в настоящее время находится в бета-версии для организаций уровня использования 4 и организаций с пользовательскими ограничениями скорости. Окно контекста 1M токенов доступно только для Claude Sonnet 4.

Максимальные входные токены в минуту (ITPM)Максимальные выходные токены в минуту (OTPM)
500,000100,000

Чтобы получить доступ к полному окну контекста 1M токенов с ограничением скорости 500K ITPM, вы можете использовать кэширование промптов.

Установка более низких ограничений для рабочих пространств

Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить пользовательские ограничения расходов и скорости для каждого рабочего пространства.

Пример: Если ограничение вашей организации составляет 40,000 входных токенов в минуту и 8,000 выходных токенов в минуту, вы можете ограничить одно рабочее пространство до 30,000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов по всей вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует ограничение) затем доступны для использования другими рабочими пространствами.

Примечание:

  • Вы не можете установить ограничения на рабочее пространство по умолчанию.
  • Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
  • Ограничения на уровне организации всегда применяются, даже если ограничения рабочих пространств в сумме превышают их.
  • Поддержка ограничений входных и выходных токенов будет добавлена в рабочие пространства в будущем.

Заголовки ответа

Ответ API включает заголовки, которые показывают вам применяемое ограничение скорости, текущее использование и когда ограничение будет сброшено.

Возвращаются следующие заголовки:

ЗаголовокОписание
retry-afterКоличество секунд ожидания, прежде чем вы сможете повторить запрос. Более ранние повторы завершатся неудачей.
anthropic-ratelimit-requests-limitМаксимальное количество запросов, разрешенных в любом периоде ограничения скорости.
anthropic-ratelimit-requests-remainingКоличество запросов, оставшихся до ограничения скорости.
anthropic-ratelimit-requests-resetВремя, когда ограничение скорости запросов будет полностью восстановлено, предоставленное в формате RFC 3339.
anthropic-ratelimit-tokens-limitМаксимальное количество токенов, разрешенных в любом периоде ограничения скорости.
anthropic-ratelimit-tokens-remainingКоличество токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости.
anthropic-ratelimit-tokens-resetВремя, когда ограничение скорости токенов будет полностью восстановлено, предоставленное в формате RFC 3339.
anthropic-ratelimit-input-tokens-limitМаксимальное количество входных токенов, разрешенных в любом периоде ограничения скорости.
anthropic-ratelimit-input-tokens-remainingКоличество входных токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости.
anthropic-ratelimit-input-tokens-resetВремя, когда ограничение скорости входных токенов будет полностью восстановлено, предоставленное в формате RFC 3339.
anthropic-ratelimit-output-tokens-limitМаксимальное количество выходных токенов, разрешенных в любом периоде ограничения скорости.
anthropic-ratelimit-output-tokens-remainingКоличество выходных токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости.
anthropic-ratelimit-output-tokens-resetВремя, когда ограничение скорости выходных токенов будет полностью восстановлено, предоставленное в формате RFC 3339.
anthropic-priority-input-tokens-limitМаксимальное количество входных токенов Priority Tier, разрешенных в любом периоде ограничения скорости. (только Priority Tier)
anthropic-priority-input-tokens-remainingКоличество входных токенов Priority Tier, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. (только Priority Tier)
anthropic-priority-input-tokens-resetВремя, когда ограничение скорости входных токенов Priority Tier будет полностью восстановлено, предоставленное в формате RFC 3339. (только Priority Tier)
anthropic-priority-output-tokens-limitМаксимальное количество выходных токенов Priority Tier, разрешенных в любом периоде ограничения скорости. (только Priority Tier)
anthropic-priority-output-tokens-remainingКоличество выходных токенов Priority Tier, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. (только Priority Tier)
anthropic-priority-output-tokens-resetВремя, когда ограничение скорости выходных токенов Priority Tier будет полностью восстановлено, предоставленное в формате RFC 3339. (только Priority Tier)

Заголовки anthropic-ratelimit-tokens-* отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили ограничение токенов рабочего пространства в минуту, заголовки будут содержать значения ограничения скорости токенов рабочего пространства в минуту. Если ограничения рабочего пространства не применяются, заголовки вернут общие оставшиеся токены, где общее количество является суммой входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее релевантного ограничения для вашего текущего использования API.