Ограничения скорости
Чтобы предотвратить злоупотребления и управлять нагрузкой на наш API, мы внедрили ограничения на то, насколько интенсивно организация может использовать API Claude.
У нас есть два типа ограничений:
- Ограничения расходов устанавливают максимальную месячную стоимость, которую организация может понести за использование API.
- Ограничения скорости устанавливают максимальное количество API-запросов, которые организация может сделать за определенный период времени.
Мы применяем настроенные сервисом ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.
Эти ограничения применяются как к использованию Стандартного, так и Приоритетного уровня. Для получения дополнительной информации о Приоритетном уровне, который предлагает улучшенные уровни обслуживания в обмен на гарантированные расходы, см. Уровни обслуживания.
О наших ограничениях
- Ограничения разработаны для предотвращения злоупотребления API, при этом минимизируя влияние на типичные схемы использования клиентами.
- Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и скорости.
- Уровень вашей организации будет автоматически повышаться по мере достижения определенных порогов при использовании API. Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Ограничений в Консоли Anthropic.
- Вы можете достичь ограничений скорости за более короткие интервалы времени. Например, скорость 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить ограничение скорости и привести к ошибкам ограничения скорости.
- Ограничения, описанные ниже, являются нашими стандартными ограничениями уровня. Если вы ищете более высокие, индивидуальные ограничения или Приоритетный уровень для улучшенного обслуживания, свяжитесь с отделом продаж через Консоль Anthropic.
- Мы используем алгоритм токенного ведра для ограничения скорости. Это означает, что ваша емкость непрерывно пополняется до максимального предела, а не сбрасывается через фиксированные интервалы.
- Все описанные здесь ограничения представляют собой максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для уменьшения непреднамеренного перерасхода и обеспечения справедливого распределения ресурсов между пользователями.
Ограничения расходов
Каждый уровень использования имеет ограничение на то, сколько вы можете потратить на API каждый календарный месяц. Как только вы достигнете предела расходов вашего уровня, пока вы не получите право на следующий уровень, вам придется ждать до следующего месяца, чтобы снова использовать API.
Чтобы получить право на следующий уровень, вы должны выполнить требование по депозиту. Чтобы минимизировать риск избыточного пополнения вашего счета, вы не можете внести депозит, превышающий ваш месячный лимит расходов.
Требования для повышения уровня
Уровень использования | Покупка кредитов | Макс. использование в месяц |
---|---|---|
Уровень 1 | $5 | $100 |
Уровень 2 | $40 | $500 |
Уровень 3 | $200 | $1,000 |
Уровень 4 | $400 | $5,000 |
Ежемесячное выставление счетов | Н/Д | Н/Д |
Ограничения скорости
Наши ограничения скорости для API сообщений измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса моделей.
Если вы превысите любое из ограничений скорости, вы получите ошибку 429, описывающую, какое ограничение скорости было превышено, вместе с заголовком retry-after
, указывающим, сколько времени нужно подождать.
Ограничения ITPM оцениваются в начале каждого запроса, и оценка корректируется во время запроса, чтобы отразить фактическое количество использованных входных токенов.
Окончательная корректировка учитывает input_tokens
и cache_creation_input_tokens
в ограничениях ITPM, в то время как cache_read_input_tokens
не учитываются (хотя они все равно тарифицируются).
В некоторых случаях cache_read_input_tokens
учитываются в ограничениях ITPM.
Ограничения OTPM оцениваются на основе max_tokens
в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов.
Если вы достигаете ограничений OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens
, чтобы лучше аппроксимировать размер ваших завершений.
Ограничения скорости применяются отдельно для каждой модели; поэтому вы можете использовать разные модели до их соответствующих пределов одновременно. Вы можете проверить свои текущие ограничения скорости и поведение в Консоли Anthropic.
Модель | Максимум запросов в минуту (RPM) | Максимум входных токенов в минуту (ITPM) | Максимум выходных токенов в минуту (OTPM) |
---|---|---|---|
Claude Opus 4 | 50 | 20,000 | 8,000 |
Claude Sonnet 4 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40,000* | 8,000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40,000* | 8,000 |
Claude Haiku 3.5 | 50 | 50,000* | 10,000 |
Claude Opus 3 | 50 | 20,000* | 4,000 |
Claude Sonnet 3 | 50 | 40,000* | 8,000 |
Claude Haiku 3 | 50 | 50,000* | 10,000 |
Ограничения, отмеченные звездочками (*), учитывают cache_read_input_tokens
в использовании ITPM.
Модель | Максимум запросов в минуту (RPM) | Максимум входных токенов в минуту (ITPM) | Максимум выходных токенов в минуту (OTPM) |
---|---|---|---|
Claude Opus 4 | 50 | 20,000 | 8,000 |
Claude Sonnet 4 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40,000* | 8,000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40,000* | 8,000 |
Claude Haiku 3.5 | 50 | 50,000* | 10,000 |
Claude Opus 3 | 50 | 20,000* | 4,000 |
Claude Sonnet 3 | 50 | 40,000* | 8,000 |
Claude Haiku 3 | 50 | 50,000* | 10,000 |
Ограничения, отмеченные звездочками (*), учитывают cache_read_input_tokens
в использовании ITPM.
Модель | Максимум запросов в минуту (RPM) | Максимум входных токенов в минуту (ITPM) | Максимум выходных токенов в минуту (OTPM) |
---|---|---|---|
Claude Opus 4 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 4 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 3.7 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 3.5 2024-10-22 | 1,000 | 80,000* | 16,000 |
Claude Sonnet 3.5 2024-06-20 | 1,000 | 80,000* | 16,000 |
Claude Haiku 3.5 | 1,000 | 100,000* | 20,000 |
Claude Opus 3 | 1,000 | 40,000* | 8,000 |
Claude Sonnet 3 | 1,000 | 80,000* | 16,000 |
Claude Haiku 3 | 1,000 | 100,000* | 20,000 |
Ограничения, отмеченные звездочками (*), учитывают cache_read_input_tokens
в использовании ITPM.
Модель | Максимум запросов в минуту (RPM) | Максимум входных токенов в минуту (ITPM) | Максимум выходных токенов в минуту (OTPM) |
---|---|---|---|
Claude Opus 4 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 4 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 3.7 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 3.5 2024-10-22 | 2,000 | 160,000* | 32,000 |
Claude Sonnet 3.5 2024-06-20 | 2,000 | 160,000* | 32,000 |
Claude Haiku 3.5 | 2,000 | 200,000* | 40,000 |
Claude Opus 3 | 2,000 | 80,000* | 16,000 |
Claude Sonnet 3 | 2,000 | 160,000* | 32,000 |
Claude Haiku 3 | 2,000 | 200,000* | 40,000 |
Ограничения, отмеченные звездочками (*), учитывают cache_read_input_tokens
в использовании ITPM.
Модель | Максимум запросов в минуту (RPM) | Максимум входных токенов в минуту (ITPM) | Максимум выходных токенов в минуту (OTPM) |
---|---|---|---|
Claude Opus 4 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 4 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 3.7 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 3.5 2024-10-22 | 4,000 | 400,000* | 80,000 |
Claude Sonnet 3.5 2024-06-20 | 4,000 | 400,000* | 80,000 |
Claude Haiku 3.5 | 4,000 | 400,000* | 80,000 |
Claude Opus 3 | 4,000 | 400,000* | 80,000 |
Claude Sonnet 3 | 4,000 | 400,000* | 80,000 |
Claude Haiku 3 | 4,000 | 400,000* | 80,000 |
Ограничения, отмеченные звездочками (*), учитывают cache_read_input_tokens
в использовании ITPM.
Если вы ищете более высокие ограничения для корпоративного использования, свяжитесь с отделом продаж через Консоль Anthropic.
API пакетных сообщений
API пакетных сообщений имеет свой собственный набор ограничений скорости, которые распространяются на все модели. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части пакета сообщений. Вы можете создать пакет сообщений, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом ограничении. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.
Максимум запросов в минуту (RPM) | Максимум пакетных запросов в очереди обработки | Максимум пакетных запросов на пакет |
---|---|---|
50 | 100,000 | 100,000 |
Максимум запросов в минуту (RPM) | Максимум пакетных запросов в очереди обработки | Максимум пакетных запросов на пакет |
---|---|---|
50 | 100,000 | 100,000 |
Максимум запросов в минуту (RPM) | Максимум пакетных запросов в очереди обработки | Максимум пакетных запросов на пакет |
---|---|---|
1,000 | 200,000 | 100,000 |
Максимум запросов в минуту (RPM) | Максимум пакетных запросов в очереди обработки | Максимум пакетных запросов на пакет |
---|---|---|
2,000 | 300,000 | 100,000 |
Максимум запросов в минуту (RPM) | Максимум пакетных запросов в очереди обработки | Максимум пакетных запросов на пакет |
---|---|---|
4,000 | 500,000 | 100,000 |
Если вы ищете более высокие ограничения для корпоративного использования, свяжитесь с отделом продаж через Консоль Anthropic.
Установка более низких ограничений для рабочих пространств
Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить индивидуальные ограничения расходов и скорости для каждого рабочего пространства.
Пример: Если ограничение вашей организации составляет 40 000 входных токенов в минуту и 8 000 выходных токенов в минуту, вы можете ограничить одно рабочее пространство до 30 000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов в вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует лимит) затем доступны для использования другими рабочими пространствами.
Примечание:
- Вы не можете установить ограничения для рабочего пространства по умолчанию.
- Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
- Ограничения на уровне организации всегда применяются, даже если ограничения рабочего пространства в сумме превышают их.
- Поддержка ограничений на входные и выходные токены будет добавлена в рабочие пространства в будущем.
Заголовки ответа
Ответ API включает заголовки, которые показывают вам применяемое ограничение скорости, текущее использование и когда ограничение будет сброшено.
Возвращаются следующие заголовки:
Заголовок | Описание |
---|---|
retry-after | Количество секунд ожидания до повторной попытки запроса. Более ранние повторные попытки завершатся неудачей. |
anthropic-ratelimit-requests-limit | Максимальное количество запросов, разрешенных в течение любого периода ограничения скорости. |
anthropic-ratelimit-requests-remaining | Количество оставшихся запросов до ограничения скорости. |
anthropic-ratelimit-requests-reset | Время, когда ограничение скорости запросов будет полностью пополнено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-tokens-limit | Максимальное количество токенов, разрешенных в течение любого периода ограничения скорости. |
anthropic-ratelimit-tokens-remaining | Количество оставшихся токенов (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-tokens-reset | Время, когда ограничение скорости токенов будет полностью пополнено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Максимальное количество входных токенов, разрешенных в течение любого периода ограничения скорости. |
anthropic-ratelimit-input-tokens-remaining | Количество оставшихся входных токенов (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-input-tokens-reset | Время, когда ограничение скорости входных токенов будет полностью пополнено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Максимальное количество выходных токенов, разрешенных в течение любого периода ограничения скорости. |
anthropic-ratelimit-output-tokens-remaining | Количество оставшихся выходных токенов (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-output-tokens-reset | Время, когда ограничение скорости выходных токенов будет полностью пополнено, предоставленное в формате RFC 3339. |
anthropic-priority-input-tokens-limit | Максимальное количество входных токенов Приоритетного уровня, разрешенных в течение любого периода ограничения скорости. (Только для Приоритетного уровня) |
anthropic-priority-input-tokens-remaining | Количество оставших входных токенов Приоритетного уровня (округленное до ближайшей тысячи) до ограничения скорости. (Только для Приоритетного уровня) |
anthropic-priority-input-tokens-reset | Время, когда ограничение скорости входных токенов Приоритетного уровня будет полностью пополнено, предоставленное в формате RFC 3339. (Только для Приоритетного уровня) |
anthropic-priority-output-tokens-limit | Максимальное количество выходных токенов Приоритетного уровня, разрешенных в течение любого периода ограничения скорости. (Только для Приоритетного уровня) |
anthropic-priority-output-tokens-remaining | Количество оставшихся выходных токенов Приоритетного уровня (округленное до ближайшей тысячи) до ограничения скорости. (Только для Приоритетного уровня) |
anthropic-priority-output-tokens-reset | Время, когда ограничение скорости выходных токенов Приоритетного уровня будет полностью пополнено, предоставленное в формате RFC 3339. (Только для Приоритетного уровня) |
Заголовки anthropic-ratelimit-tokens-*
отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили ограничение токенов рабочего пространства в минуту, заголовки будут содержать значения ограничения скорости токенов рабочего пространства в минуту. Если ограничения рабочего пространства не применяются, заголовки вернут общее количество оставшихся токенов, где общее количество - это сумма входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее релевантного ограничения вашего текущего использования API.