У нас есть два типа ограничений:

  1. Ограничения расходов устанавливают максимальную месячную стоимость, которую организация может понести за использование API.
  2. Ограничения скорости устанавливают максимальное количество API-запросов, которые организация может сделать за определенный период времени.

Мы применяем настроенные сервисом ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.

Эти ограничения применяются как к использованию Стандартного, так и Приоритетного уровня. Для получения дополнительной информации о Приоритетном уровне, который предлагает улучшенные уровни обслуживания в обмен на гарантированные расходы, см. Уровни обслуживания.

О наших ограничениях

  • Ограничения разработаны для предотвращения злоупотребления API, при этом минимизируя влияние на типичные схемы использования клиентами.
  • Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и скорости.
  • Уровень вашей организации будет автоматически повышаться по мере достижения определенных порогов при использовании API. Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Ограничений в Консоли Anthropic.
  • Вы можете достичь ограничений скорости за более короткие интервалы времени. Например, скорость 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить ограничение скорости и привести к ошибкам ограничения скорости.
  • Ограничения, описанные ниже, являются нашими стандартными ограничениями уровня. Если вы ищете более высокие, индивидуальные ограничения или Приоритетный уровень для улучшенного обслуживания, свяжитесь с отделом продаж через Консоль Anthropic.
  • Мы используем алгоритм токенного ведра для ограничения скорости. Это означает, что ваша емкость непрерывно пополняется до максимального предела, а не сбрасывается через фиксированные интервалы.
  • Все описанные здесь ограничения представляют собой максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для уменьшения непреднамеренного перерасхода и обеспечения справедливого распределения ресурсов между пользователями.

Ограничения расходов

Каждый уровень использования имеет ограничение на то, сколько вы можете потратить на API каждый календарный месяц. Как только вы достигнете предела расходов вашего уровня, пока вы не получите право на следующий уровень, вам придется ждать до следующего месяца, чтобы снова использовать API.

Чтобы получить право на следующий уровень, вы должны выполнить требование по депозиту. Чтобы минимизировать риск избыточного пополнения вашего счета, вы не можете внести депозит, превышающий ваш месячный лимит расходов.

Требования для повышения уровня

Уровень использованияПокупка кредитовМакс. использование в месяц
Уровень 1$5$100
Уровень 2$40$500
Уровень 3$200$1,000
Уровень 4$400$5,000
Ежемесячное выставление счетовН/ДН/Д

Ограничения скорости

Наши ограничения скорости для API сообщений измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса моделей. Если вы превысите любое из ограничений скорости, вы получите ошибку 429, описывающую, какое ограничение скорости было превышено, вместе с заголовком retry-after, указывающим, сколько времени нужно подождать.

Ограничения ITPM оцениваются в начале каждого запроса, и оценка корректируется во время запроса, чтобы отразить фактическое количество использованных входных токенов. Окончательная корректировка учитывает input_tokens и cache_creation_input_tokens в ограничениях ITPM, в то время как cache_read_input_tokens не учитываются (хотя они все равно тарифицируются). В некоторых случаях cache_read_input_tokens учитываются в ограничениях ITPM.

Ограничения OTPM оцениваются на основе max_tokens в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов. Если вы достигаете ограничений OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens, чтобы лучше аппроксимировать размер ваших завершений.

Ограничения скорости применяются отдельно для каждой модели; поэтому вы можете использовать разные модели до их соответствующих пределов одновременно. Вы можете проверить свои текущие ограничения скорости и поведение в Консоли Anthropic.

МодельМаксимум запросов в минуту (RPM)Максимум входных токенов в минуту (ITPM)Максимум выходных токенов в минуту (OTPM)
Claude Opus 45020,0008,000
Claude Sonnet 45020,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22
5040,000*8,000
Claude Sonnet 3.5
2024-06-20
5040,000*8,000
Claude Haiku 3.55050,000*10,000
Claude Opus 35020,000*4,000
Claude Sonnet 35040,000*8,000
Claude Haiku 35050,000*10,000

Ограничения, отмеченные звездочками (*), учитывают cache_read_input_tokens в использовании ITPM.

API пакетных сообщений

API пакетных сообщений имеет свой собственный набор ограничений скорости, которые распространяются на все модели. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части пакета сообщений. Вы можете создать пакет сообщений, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом ограничении. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.

Максимум запросов в минуту (RPM)Максимум пакетных запросов в очереди обработкиМаксимум пакетных запросов на пакет
50100,000100,000

Установка более низких ограничений для рабочих пространств

Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить индивидуальные ограничения расходов и скорости для каждого рабочего пространства.

Пример: Если ограничение вашей организации составляет 40 000 входных токенов в минуту и 8 000 выходных токенов в минуту, вы можете ограничить одно рабочее пространство до 30 000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов в вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует лимит) затем доступны для использования другими рабочими пространствами.

Примечание:

  • Вы не можете установить ограничения для рабочего пространства по умолчанию.
  • Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
  • Ограничения на уровне организации всегда применяются, даже если ограничения рабочего пространства в сумме превышают их.
  • Поддержка ограничений на входные и выходные токены будет добавлена в рабочие пространства в будущем.

Заголовки ответа

Ответ API включает заголовки, которые показывают вам применяемое ограничение скорости, текущее использование и когда ограничение будет сброшено.

Возвращаются следующие заголовки:

ЗаголовокОписание
retry-afterКоличество секунд ожидания до повторной попытки запроса. Более ранние повторные попытки завершатся неудачей.
anthropic-ratelimit-requests-limitМаксимальное количество запросов, разрешенных в течение любого периода ограничения скорости.
anthropic-ratelimit-requests-remainingКоличество оставшихся запросов до ограничения скорости.
anthropic-ratelimit-requests-resetВремя, когда ограничение скорости запросов будет полностью пополнено, предоставленное в формате RFC 3339.
anthropic-ratelimit-tokens-limitМаксимальное количество токенов, разрешенных в течение любого периода ограничения скорости.
anthropic-ratelimit-tokens-remainingКоличество оставшихся токенов (округленное до ближайшей тысячи) до ограничения скорости.
anthropic-ratelimit-tokens-resetВремя, когда ограничение скорости токенов будет полностью пополнено, предоставленное в формате RFC 3339.
anthropic-ratelimit-input-tokens-limitМаксимальное количество входных токенов, разрешенных в течение любого периода ограничения скорости.
anthropic-ratelimit-input-tokens-remainingКоличество оставшихся входных токенов (округленное до ближайшей тысячи) до ограничения скорости.
anthropic-ratelimit-input-tokens-resetВремя, когда ограничение скорости входных токенов будет полностью пополнено, предоставленное в формате RFC 3339.
anthropic-ratelimit-output-tokens-limitМаксимальное количество выходных токенов, разрешенных в течение любого периода ограничения скорости.
anthropic-ratelimit-output-tokens-remainingКоличество оставшихся выходных токенов (округленное до ближайшей тысячи) до ограничения скорости.
anthropic-ratelimit-output-tokens-resetВремя, когда ограничение скорости выходных токенов будет полностью пополнено, предоставленное в формате RFC 3339.
anthropic-priority-input-tokens-limitМаксимальное количество входных токенов Приоритетного уровня, разрешенных в течение любого периода ограничения скорости. (Только для Приоритетного уровня)
anthropic-priority-input-tokens-remainingКоличество оставших входных токенов Приоритетного уровня (округленное до ближайшей тысячи) до ограничения скорости. (Только для Приоритетного уровня)
anthropic-priority-input-tokens-resetВремя, когда ограничение скорости входных токенов Приоритетного уровня будет полностью пополнено, предоставленное в формате RFC 3339. (Только для Приоритетного уровня)
anthropic-priority-output-tokens-limitМаксимальное количество выходных токенов Приоритетного уровня, разрешенных в течение любого периода ограничения скорости. (Только для Приоритетного уровня)
anthropic-priority-output-tokens-remainingКоличество оставшихся выходных токенов Приоритетного уровня (округленное до ближайшей тысячи) до ограничения скорости. (Только для Приоритетного уровня)
anthropic-priority-output-tokens-resetВремя, когда ограничение скорости выходных токенов Приоритетного уровня будет полностью пополнено, предоставленное в формате RFC 3339. (Только для Приоритетного уровня)

Заголовки anthropic-ratelimit-tokens-* отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили ограничение токенов рабочего пространства в минуту, заголовки будут содержать значения ограничения скорости токенов рабочего пространства в минуту. Если ограничения рабочего пространства не применяются, заголовки вернут общее количество оставшихся токенов, где общее количество - это сумма входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее релевантного ограничения вашего текущего использования API.