У нас есть два типа ограничений:

  1. Ограничения расходов устанавливают максимальную месячную стоимость, которую организация может потратить на использование API.
  2. Ограничения частоты запросов устанавливают максимальное количество API-запросов, которые организация может сделать за определенный период времени.

Мы применяем настроенные сервисом ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.

О наших ограничениях

  • Ограничения разработаны для предотвращения злоупотребления API при минимальном влиянии на типичные схемы использования клиентами.
  • Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и частоты запросов.
  • Ваша организация будет автоматически повышать уровни по мере достижения определенных порогов при использовании API.
  • Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Ограничений в Консоли Anthropic.
  • Вы можете достичь ограничений частоты запросов за более короткие интервалы времени. Например, частота 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить ограничение частоты и привести к ошибкам превышения лимита.
  • Приведенные ниже ограничения являются нашими стандартными ограничениями. Если вам нужны более высокие, индивидуальные ограничения, свяжитесь с отделом продаж через Консоль Anthropic.
  • Мы используем алгоритм токенного ведра для ограничения частоты запросов.
  • Все описанные здесь ограничения представляют собой максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для предотвращения чрезмерного использования и обеспечения справедливого распределения ресурсов между пользователями.

Ограничения расходов

Каждый уровень использования имеет ограничение на сумму, которую вы можете потратить на API каждый календарный месяц. Как только вы достигнете ограничения расходов вашего уровня, до тех пор, пока вы не получите право на следующий уровень, вам придется ждать следующего месяца, чтобы снова использовать API.

Чтобы получить право на следующий уровень, вы должны выполнить требование по депозиту и обязательный период ожидания. Более высокие уровни требуют более длительных периодов ожидания. Обратите внимание, чтобы минимизировать риск избыточного пополнения вашего счета, вы не можете внести депозит больше вашего месячного ограничения расходов.

Требования для повышения уровня

Уровень использованияПокупка кредитовОжидание после первой покупкиМаксимальное использование в месяц
Уровень 1$50 дней$100
Уровень 2$407 дней$500
Уровень 3$2007 дней$1,000
Уровень 4$40014 дней$5,000
Ежемесячное выставление счетовН/ДН/ДН/Д

Обновленные ограничения частоты запросов

Наши ограничения частоты запросов для API сообщений измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса моделей. Если вы превысите любое из ограничений частоты запросов, вы получите ошибку 429. Нажмите на уровень ограничения частоты запросов, чтобы просмотреть соответствующие ограничения.

Ограничения частоты отслеживаются для каждой модели. Поэтому модели в пределах одного уровня не имеют общего ограничения частоты.

МодельМаксимум запросов в минуту (RPM)Максимум входных токенов в минуту (ITPM)Максимум выходных токенов в минуту (OTPM)
Claude 3.5 Sonnet
2024-10-22
5040,0008,000
Claude 3.5 Sonnet
2024-06-20
5040,0008,000
Claude 3.5 Haiku5050,00010,000
Claude 3 Opus5020,0004,000
Claude 3 Sonnet5040,0008,000
Claude 3 Haiku5050,00010,000

Ограничения OTPM оцениваются на основе max_tokens в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов. Если вы достигаете ограничений OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens, чтобы соответствовать размеру ваших завершений.

API пакетных сообщений

API пакетных сообщений имеет свой собственный набор ограничений частоты, которые являются общими для всех моделей. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части пакета сообщений. Вы можете создать пакет сообщений, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом ограничении. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.

Максимум запросов в минуту (RPM)Максимум пакетных запросов в очереди обработки
50100,000

Установка более низких ограничений для рабочих пространств

Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить пользовательские ограничения расходов и частоты для каждого рабочего пространства.

Пример: Если ограничение вашей организации составляет 48,000 токенов в минуту (40,000 входных токенов и 8,000 выходных токенов), вы можете ограничить одно рабочее пространство до 30,000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов в вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует лимит) затем становятся доступными для использования другими рабочими пространствами.

Примечание:

  • Вы не можете установить ограничения для рабочего пространства по умолчанию.
  • Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
  • Ограничения на уровне организации всегда применяются, даже если ограничения рабочих пространств в сумме превышают их.
  • Поддержка ограничений входных и выходных токенов будет добавлена в рабочие пространства в будущем.

Заголовки ответов

Ответ API включает заголовки, которые показывают вам применяемое ограничение частоты, текущее использование и когда ограничение буд

ет сброшено.

Возвращаются следующие заголовки:

ЗаголовокОписание
anthropic-ratelimit-requests-limitМаксимальное количество запросов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-requests-remainingКоличество оставшихся запросов до достижения ограничения частоты.
anthropic-ratelimit-requests-resetВремя, когда ограничение частоты запросов будет сброшено, предоставляется в формате RFC 3339.
anthropic-ratelimit-tokens-limitМаксимальное количество токенов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-tokens-remainingКоличество оставшихся токенов (округлено до ближайшей тысячи) до достижения ограничения частоты.
anthropic-ratelimit-tokens-resetВремя, когда ограничение частоты токенов будет сброшено, предоставляется в формате RFC 3339.
anthropic-ratelimit-input-tokens-limitМаксимальное количество входных токенов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-input-tokens-remainingКоличество оставшихся входных токенов (округлено до ближайшей тысячи) до достижения ограничения частоты.
anthropic-ratelimit-input-tokens-resetВремя, когда ограничение частоты входных токенов будет сброшено, предоставляется в формате RFC 3339.
anthropic-ratelimit-output-tokens-limitМаксимальное количество выходных токенов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-output-tokens-remainingКоличество оставшихся выходных токенов (округлено до ближайшей тысячи) до достижения ограничения частоты.
anthropic-ratelimit-output-tokens-resetВремя, когда ограничение частоты выходных токенов будет сброшено, предоставляется в формате RFC 3339.
retry-afterКоличество секунд до возможности повторной попытки запроса.

Заголовки anthropic-ratelimit-tokens-* отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили поминутный лимит токенов рабочего пространства, заголовки будут содержать значения поминутного ограничения токенов рабочего пространства. Если ограничения рабочего пространства не применяются, заголовки вернут общее количество оставшихся токенов, где общее количество является суммой входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее актуального ограничения вашего текущего использования API.

Устаревшие ограничения частоты

Наши ограничения частоты ранее измерялись в запросах в минуту, токенах в минуту и токенах в день для каждого класса моделей. Если вы превысите любое из ограничений частоты, вы получите ошибку 429. Нажмите на уровень ограничения частоты, чтобы просмотреть соответствующие ограничения.

Ограничения частоты отслеживаются для каждой модели, поэтому модели в пределах одного уровня не имеют общего ограничения частоты.

МодельМаксимум запросов в минуту (RPM)Максимум токенов в минуту (TPM)Максимум токенов в день (TPD)
Claude 3.5 Sonnet
2024-10-22
5040,0001,000,000
Claude 3.5 Sonnet
2024-06-20
5040,0001,000,000
Claude 3.5 Haiku5050,0005,000,000
Claude 3 Opus5020,0001,000,000
Claude 3 Sonnet5040,0001,000,000
Claude 3 Haiku5050,0005,000,000