Лимиты использования
Чтобы предотвратить злоупотребления и управлять нагрузкой на наш API, мы внедрили ограничения на использование API Claude для организаций.
У нас есть два типа ограничений:
- Лимиты расходов устанавливают максимальную месячную стоимость, которую организация может потратить на использование API.
- Лимиты частоты запросов устанавливают максимальное количество API-запросов, которые организация может сделать за определенный период времени.
Мы применяем настроенные системой ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.
О наших ограничениях
- Ограничения разработаны для предотвращения злоупотребления API при минимальном влиянии на типичные схемы использования клиентами.
- Ограничения определяются уровнем использования, где каждый уровень связан с различным набором лимитов расходов и частоты запросов.
- Ваша организация будет автоматически переходить на более высокие уровни по мере достижения определенных порогов при использовании API. Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице лимитов в консоли Anthropic.
- Вы можете достичь ограничений частоты запросов на более коротких временных интервалах. Например, частота 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить лимит частоты и привести к ошибкам превышения лимита.
- Указанные ниже ограничения являются нашими стандартными лимитами. Если вам нужны более высокие, индивидуальные лимиты, свяжитесь с отделом продаж через консоль Anthropic.
- Мы используем алгоритм токенного ведра для ограничения частоты запросов. Это означает, что ваша емкость постоянно пополняется до максимального лимита, а не сбрасывается в фиксированные интервалы.
- Все описанные здесь ограничения представляют собой максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для предотвращения чрезмерного использования и обеспечения справедливого распределения ресурсов между пользователями.
Лимиты расходов
Каждый уровень использования имеет ограничение на сумму, которую вы можете потратить на API в течение календарного месяца. Как только вы достигнете лимита расходов своего уровня, до перехода на следующий уровень вам придется ждать следующего месяца, чтобы снова использовать API.
Для перехода на следующий уровень необходимо выполнить требование по депозиту и обязательный период ожидания. Более высокие уровни требуют более длительных периодов ожидания. Обратите внимание, что для минимизации риска избыточного пополнения счета вы не можете внести депозит, превышающий ваш месячный лимит расходов.
Требования для повышения уровня
Уровень использования | Покупка кредитов | Ожидание после первой покупки | Максимальное использование в месяц |
---|---|---|---|
Уровень 1 | $5 | 0 дней | $100 |
Уровень 2 | $40 | 7 дней | $500 |
Уровень 3 | $200 | 7 дней | $1,000 |
Уровень 4 | $400 | 14 дней | $5,000 |
Ежемесячное выставление счетов | Н/Д | Н/Д | Н/Д |
Лимиты частоты запросов
Наши ограничения частоты для API сообщений измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса моделей.
Если вы превысите любой из лимитов частоты, вы получите ошибку 429, описывающую, какой лимит был превышен, вместе с заголовком retry-after
, указывающим, сколько нужно подождать.
Лимиты ITPM оцениваются в начале каждого запроса, и оценка корректируется во время запроса, чтобы отразить фактическое количество использованных входных токенов.
Окончательная корректировка учитывает input_tokens
и cache_creation_input_tokens
в лимитах ITPM, в то время как cache_read_input_tokens
не учитываются (хотя они все равно тарифицируются).
В некоторых случаях cache_read_input_tokens
учитываются в лимитах ITPM.
Лимиты OTPM оцениваются на основе max_tokens
в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов.
Если вы достигаете лимитов OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens
, чтобы лучше приблизить размер ваших завершений.
Лимиты частоты применяются отдельно для каждой модели; поэтому вы можете использовать разные модели одновременно до их соответствующих лимитов. Вы можете проверить свои текущие лимиты частоты и поведение в консоли Anthropic.
Модель | Максимум запросов в минуту (RPM) | Максимум входных токенов в минуту (ITPM) | Максимум выходных токенов в минуту (OTPM) |
---|---|---|---|
Claude 3.7 Sonnet | 50 | 20,000 | 8,000 |
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000* | 8,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000* | 8,000 |
Claude 3.5 Haiku | 50 | 50,000* | 10,000 |
Claude 3 Opus | 50 | 20,000* | 4,000 |
Claude 3 Sonnet | 50 | 40,000* | 8,000 |
Claude 3 Haiku | 50 | 50,000* | 10,000 |
Лимиты, отмеченные звездочкой (*), учитывают cache_read_input_tokens
в использовании ITPM.
API пакетной обработки сообщений
API пакетной обработки сообщений имеет собственный набор ограничений частоты, которые распространяются на все модели. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части пакета сообщений. Вы можете создать пакет сообщений, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом лимите. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.
Максимум запросов в минуту (RPM) | Максимум пакетных запросов в очереди обработки | Максимум пакетных запросов в пакете |
---|---|---|
50 | 100,000 | 100,000 |
Установка более низких лимитов для рабочих пространств
Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить пользовательские лимиты расходов и частоты для каждого рабочего пространства.
Пример: Если лимит вашей организации составляет 40,000 входных токенов в минуту и 8,000 выходных токенов в минуту, вы можете ограничить одно рабочее пространство до 30,000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов в вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует лимит) затем доступны для использования другими рабочими пространствами.
Примечание:
- Вы не можете установить лимиты для рабочего пространства по умолчанию.
- Если не установлено, лимиты рабочего пространства соответствуют лимиту организации.
- Общеорганизационные лимиты всегда применяются, даже если лимиты рабочих пространств в сумме превышают их.
- Поддержка лимитов входных и выходных токенов будет добавлена в рабочие пространства в будущем.
Заголовки ответа
Ответ API включает заголовки, которые показывают применяемый лимит частоты, текущее использование и когда лимит будет сброшен.
Возвращаются следующие заголовки:
Заголовок | Описание |
---|---|
retry-after | Количество секунд ожидания до возможности повторной попытки запроса. Более ранние попытки завершатся неудачей. |
anthropic-ratelimit-requests-limit | Максимальное количество запросов, разрешенных в течение любого периода ограничения частоты. |
anthropic-ratelimit-requests-remaining | Количество оставшихся запросов до достижения лимита частоты. |
anthropic-ratelimit-requests-reset | Время, когда лимит частоты запросов будет полностью восстановлен, в формате RFC 3339. |
anthropic-ratelimit-tokens-limit | Максимальное количество токенов, разрешенных в течение любого периода ограничения частоты. |
anthropic-ratelimit-tokens-remaining | Количество оставшихся токенов (округлено до ближайшей тысячи) до достижения лимита частоты. |
anthropic-ratelimit-tokens-reset | Время, когда лимит частоты токенов будет полностью восстановлен, в формате RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Максимальное количество входных токенов, разрешенных в течение любого периода ограничения частоты. |
anthropic-ratelimit-input-tokens-remaining | Количество оставшихся входных токенов (округлено до ближайшей тысячи) до достижения лимита частоты. |
anthropic-ratelimit-input-tokens-reset | Время, когда лимит частоты входных токенов будет полностью восстановлен, в формате RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Максимальное количество выходных токенов, разрешенных в течение любого периода ограничения частоты. |
anthropic-ratelimit-output-tokens-remaining | Количество оставшихся выходных токенов (округлено до ближайшей тысячи) до достижения лимита частоты. |
anthropic-ratelimit-output-tokens-reset | Время, когда лимит частоты выходных токенов будет полностью восстановлен, в формате RFC 3339. |
Заголовки anthropic-ratelimit-tokens-*
отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили поминутный лимит токенов рабочего пространства, заголовки будут содержать значения лимита частоты токенов рабочего пространства в минуту. Если лимиты рабочего пространства не применяются, заголовки вернут общее количество оставшихся токенов, где общее - это сумма входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее актуального ограничения вашего текущего использования API.
Was this page helpful?