У нас есть два типа ограничений:

  1. Лимиты расходов устанавливают максимальную месячную стоимость, которую организация может потратить на использование API.
  2. Лимиты частоты запросов устанавливают максимальное количество API-запросов, которые организация может сделать за определенный период времени.

Мы применяем настроенные системой ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.

О наших ограничениях

  • Ограничения разработаны для предотвращения злоупотребления API при минимальном влиянии на типичные схемы использования клиентами.
  • Ограничения определяются уровнем использования, где каждый уровень связан с различным набором лимитов расходов и частоты запросов.
  • Ваша организация будет автоматически переходить на более высокие уровни по мере достижения определенных порогов при использовании API. Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице лимитов в консоли Anthropic.
  • Вы можете достичь ограничений частоты запросов на более коротких временных интервалах. Например, частота 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить лимит частоты и привести к ошибкам превышения лимита.
  • Указанные ниже ограничения являются нашими стандартными лимитами. Если вам нужны более высокие, индивидуальные лимиты, свяжитесь с отделом продаж через консоль Anthropic.
  • Мы используем алгоритм токенного ведра для ограничения частоты запросов. Это означает, что ваша емкость постоянно пополняется до максимального лимита, а не сбрасывается в фиксированные интервалы.
  • Все описанные здесь ограничения представляют собой максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для предотвращения чрезмерного использования и обеспечения справедливого распределения ресурсов между пользователями.

Лимиты расходов

Каждый уровень использования имеет ограничение на сумму, которую вы можете потратить на API в течение календарного месяца. Как только вы достигнете лимита расходов своего уровня, до перехода на следующий уровень вам придется ждать следующего месяца, чтобы снова использовать API.

Для перехода на следующий уровень необходимо выполнить требование по депозиту и обязательный период ожидания. Более высокие уровни требуют более длительных периодов ожидания. Обратите внимание, что для минимизации риска избыточного пополнения счета вы не можете внести депозит, превышающий ваш месячный лимит расходов.

Требования для повышения уровня

Уровень использованияПокупка кредитовОжидание после первой покупкиМаксимальное использование в месяц
Уровень 1$50 дней$100
Уровень 2$407 дней$500
Уровень 3$2007 дней$1,000
Уровень 4$40014 дней$5,000
Ежемесячное выставление счетовН/ДН/ДН/Д

Лимиты частоты запросов

Наши ограничения частоты для API сообщений измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса моделей. Если вы превысите любой из лимитов частоты, вы получите ошибку 429, описывающую, какой лимит был превышен, вместе с заголовком retry-after, указывающим, сколько нужно подождать.

Лимиты ITPM оцениваются в начале каждого запроса, и оценка корректируется во время запроса, чтобы отразить фактическое количество использованных входных токенов. Окончательная корректировка учитывает input_tokens и cache_creation_input_tokens в лимитах ITPM, в то время как cache_read_input_tokens не учитываются (хотя они все равно тарифицируются). В некоторых случаях cache_read_input_tokens учитываются в лимитах ITPM.

Лимиты OTPM оцениваются на основе max_tokens в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов. Если вы достигаете лимитов OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens, чтобы лучше приблизить размер ваших завершений.

Лимиты частоты применяются отдельно для каждой модели; поэтому вы можете использовать разные модели одновременно до их соответствующих лимитов. Вы можете проверить свои текущие лимиты частоты и поведение в консоли Anthropic.

МодельМаксимум запросов в минуту (RPM)Максимум входных токенов в минуту (ITPM)Максимум выходных токенов в минуту (OTPM)
Claude 3.7 Sonnet5020,0008,000
Claude 3.5 Sonnet
2024-10-22
5040,000*8,000
Claude 3.5 Sonnet
2024-06-20
5040,000*8,000
Claude 3.5 Haiku5050,000*10,000
Claude 3 Opus5020,000*4,000
Claude 3 Sonnet5040,000*8,000
Claude 3 Haiku5050,000*10,000

Лимиты, отмеченные звездочкой (*), учитывают cache_read_input_tokens в использовании ITPM.

API пакетной обработки сообщений

API пакетной обработки сообщений имеет собственный набор ограничений частоты, которые распространяются на все модели. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части пакета сообщений. Вы можете создать пакет сообщений, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом лимите. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.

Максимум запросов в минуту (RPM)Максимум пакетных запросов в очереди обработкиМаксимум пакетных запросов в пакете
50100,000100,000

Установка более низких лимитов для рабочих пространств

Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить пользовательские лимиты расходов и частоты для каждого рабочего пространства.

Пример: Если лимит вашей организации составляет 40,000 входных токенов в минуту и 8,000 выходных токенов в минуту, вы можете ограничить одно рабочее пространство до 30,000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов в вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует лимит) затем доступны для использования другими рабочими пространствами.

Примечание:

  • Вы не можете установить лимиты для рабочего пространства по умолчанию.
  • Если не установлено, лимиты рабочего пространства соответствуют лимиту организации.
  • Общеорганизационные лимиты всегда применяются, даже если лимиты рабочих пространств в сумме превышают их.
  • Поддержка лимитов входных и выходных токенов будет добавлена в рабочие пространства в будущем.

Заголовки ответа

Ответ API включает заголовки, которые показывают применяемый лимит частоты, текущее использование и когда лимит будет сброшен.

Возвращаются следующие заголовки:

ЗаголовокОписание
retry-afterКоличество секунд ожидания до возможности повторной попытки запроса. Более ранние попытки завершатся неудачей.
anthropic-ratelimit-requests-limitМаксимальное количество запросов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-requests-remainingКоличество оставшихся запросов до достижения лимита частоты.
anthropic-ratelimit-requests-resetВремя, когда лимит частоты запросов будет полностью восстановлен, в формате RFC 3339.
anthropic-ratelimit-tokens-limitМаксимальное количество токенов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-tokens-remainingКоличество оставшихся токенов (округлено до ближайшей тысячи) до достижения лимита частоты.
anthropic-ratelimit-tokens-resetВремя, когда лимит частоты токенов будет полностью восстановлен, в формате RFC 3339.
anthropic-ratelimit-input-tokens-limitМаксимальное количество входных токенов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-input-tokens-remainingКоличество оставшихся входных токенов (округлено до ближайшей тысячи) до достижения лимита частоты.
anthropic-ratelimit-input-tokens-resetВремя, когда лимит частоты входных токенов будет полностью восстановлен, в формате RFC 3339.
anthropic-ratelimit-output-tokens-limitМаксимальное количество выходных токенов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-output-tokens-remainingКоличество оставшихся выходных токенов (округлено до ближайшей тысячи) до достижения лимита частоты.
anthropic-ratelimit-output-tokens-resetВремя, когда лимит частоты выходных токенов будет полностью восстановлен, в формате RFC 3339.

Заголовки anthropic-ratelimit-tokens-* отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили поминутный лимит токенов рабочего пространства, заголовки будут содержать значения лимита частоты токенов рабочего пространства в минуту. Если лимиты рабочего пространства не применяются, заголовки вернут общее количество оставшихся токенов, где общее - это сумма входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее актуального ограничения вашего текущего использования API.