У нас есть два типа ограничений:

  1. Ограничения расходов устанавливают максимальную месячную стоимость, которую организация может потратить на использование API.
  2. Ограничения частоты запросов устанавливают максимальное количество API-запросов, которые организация может сделать за определенный период времени.

Мы применяем настроенные сервисом ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.

О наших ограничениях

  • Ограничения разработаны для предотвращения злоупотребления API при минимальном влиянии на типичные схемы использования клиентами.
  • Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и частоты запросов.
  • Ваша организация будет автоматически повышать уровни по мере достижения определенных порогов при использовании API.
  • Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Ограничений в Консоли Anthropic.
  • Вы можете достичь ограничений частоты запросов за более короткие интервалы времени. Например, частота 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить ограничение частоты и привести к ошибкам ограничения частоты.
  • Приведенные ниже ограничения являются нашими стандартными ограничениями. Если вам нужны более высокие, индивидуальные ограничения, свяжитесь с отделом продаж через Консоль Anthropic.
  • Мы используем алгоритм токенного ведра для ограничения частоты запросов.
  • Все описанные здесь ограничения представляют собой максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для предотвращения чрезмерного использования и обеспечения справедливого распределения ресурсов между пользователями.

Ограничения расходов

Каждый уровень использования имеет ограничение на сумму, которую вы можете потратить на API каждый календарный месяц. Как только вы достигнете ограничения расходов вашего уровня, до тех пор, пока вы не получите право на следующий уровень, вам придется ждать следующего месяца, чтобы снова использовать API.

Чтобы получить право на следующий уровень, вы должны выполнить требование по депозиту и обязательный период ожидания. Более высокие уровни требуют более длительных периодов ожидания. Обратите внимание, чтобы минимизировать риск избыточного пополнения вашего счета, вы не можете внести депозит больше вашего месячного ограничения расходов.

Требования для повышения уровня

Уровень использованияПокупка кредитовОжидание после первой покупкиМаксимальное использование в месяц
Уровень 1$50 дней$100
Уровень 2$407 дней$500
Уровень 3$2007 дней$1,000
Уровень 4$40014 дней$5,000
Ежемесячное выставление счетовН/ДН/ДН/Д

Обновленные ограничения частоты запросов

Наши ограничения частоты запросов измеряются в запросах в минуту, входных токенах в минуту и выходных токенах в минуту для каждого класса моделей. Если вы превысите любое из ограничений частоты, вы получите ошибку 429. Нажмите на уровень ограничения частоты, чтобы просмотреть соответствующие ограничения.

Ограничения частоты отслеживаются для каждой модели. Поэтому модели в пределах одного уровня не имеют общего ограничения частоты.

МодельМаксимум запросов в минуту (RPM)Максимум входных токенов в минуту (ITPM)Максимум выходных токенов в минуту (OTPM)
Claude 3.5 Sonnet
2024-10-22
5040,0008,000
Claude 3.5 Sonnet
2024-06-20
5040,0008,000
Claude 3.5 Haiku5050,00010,000
Claude 3 Opus5020,0004,000
Claude 3 Sonnet5040,0008,000
Claude 3 Haiku5050,00010,000

Установка более низких ограничений для рабочих пространств

Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить пользовательские ограничения расходов и частоты запросов для каждого рабочего пространства.

Пример: Если ограничение вашей организации составляет 48,000 токенов в минуту (40,000 входных токенов и 8,000 выходных токенов), вы можете ограничить одно рабочее пространство до 30,000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов в вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует лимит) затем становятся доступными для использования другими рабочими пространствами.

Примечание:

  • Вы не можете установить ограничения для рабочего пространства по умолчанию.
  • Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
  • Ограничения на уровне организации всегда применяются, даже если ограничения рабочих пространств в сумме превышают их.
  • Поддержка ограничений на входные и выходные токены будет добавлена в рабочие пространства в будущем.

Заголовки ответов

Ответ API включает заголовки, которые показывают вам применяемое ограничение частоты, текущее использование и когда ограничение будет сброшено.

Возвращаются следующие заголовки:

ЗаголовокОписание
anthropic-ratelimit-requests-limitМаксимальное количество запросов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-requests-remainingКоличество оставшихся запросов до достижения ограничения частоты.
anthropic-ratelimit-requests-resetВремя, когда ограничение частоты запросов будет сброшено, в формате RFC 3339.
anthropic-ratelimit-tokens-limitМаксимальное количество токенов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-tokens-remainingКоличество оставшихся токенов (округлено до ближайшей тысячи) до достижения ограничения частоты.
anthropic-ratelimit-tokens-resetВремя, когда ограничение частоты токенов будет сброшено, в формате RFC 3339.
anthropic-ratelimit-input-tokens-limitМаксимальное количество входных токенов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-input-tokens-remainingКоличество оставшихся входных токенов (округлено до ближайшей тысячи) до достижения ограничения частоты.
anthropic-ratelimit-input-tokens-resetВремя, когда ограничение частоты входных токенов будет сброшено, в формате RFC 3339.
anthropic-ratelimit-output-tokens-limitМаксимальное количество выходных токенов, разрешенных в течение любого периода ограничения частоты.
anthropic-ratelimit-output-tokens-remainingКоличество оставшихся выходных токенов (округлено до ближайшей тысячи) до достижения ограничения частоты.
anthropic-ratelimit-output-tokens-resetВремя, когда ограничение частоты выходных токенов будет сброшено, в формате RFC 3339.
retry-afterКоличество секунд до возможности повторной попытки запроса.

Заголовки anthropic-ratelimit-tokens-* отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили поминутный лимит токенов рабочего пространства, заголовки будут содержать знач

ения поминутного ограничения токенов рабочего пространства. Если ограничения рабочего пространства не применяются, заголовки вернут общее количество оставшихся токенов, где общее количество является суммой входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее актуального ограничения вашего текущего использования API.

Устаревшие ограничения частоты

Наши ограничения частоты ранее измерялись в запросах в минуту, токенах в минуту и токенах в день для каждого класса моделей. Если вы превысите любое из ограничений частоты, вы получите ошибку 429. Нажмите на уровень ограничения частоты, чтобы просмотреть соответствующие ограничения.

Ограничения частоты отслеживаются для каждой модели, поэтому модели в пределах одного уровня не имеют общего ограничения частоты.

МодельМаксимум запросов в минуту (RPM)Максимум токенов в минуту (TPM)Максимум токенов в день (TPD)
Claude 3.5 Sonnet
2024-10-22
5040,0001,000,000
Claude 3.5 Sonnet
2024-06-20
5040,0001,000,000
Claude 3.5 Haiku5050,0005,000,000
Claude 3 Opus5020,0001,000,000
Claude 3 Sonnet5040,0001,000,000
Claude 3 Haiku5050,0005,000,000