Ограничения скорости
Чтобы предотвратить злоупотребления и управлять пропускной способностью нашего API, мы внедрили ограничения на то, сколько организация может использовать Claude API.
У нас есть два типа ограничений:
- Ограничения расходов устанавливают максимальную месячную стоимость, которую организация может понести за использование API.
- Ограничения скорости устанавливают максимальное количество запросов к API, которые организация может сделать за определенный период времени.
Мы применяем настроенные службой ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.
Эти ограничения применяются как к использованию Standard, так и Priority Tier. Для получения дополнительной информации о Priority Tier, который предлагает улучшенные уровни обслуживания в обмен на обязательные расходы, см. Уровни обслуживания.
О наших ограничениях
- Ограничения предназначены для предотвращения злоупотреблений API, минимизируя при этом влияние на общие шаблоны использования клиентов.
- Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и скорости.
- Ваша организация будет автоматически повышать уровни по мере достижения определенных пороговых значений при использовании API. Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Ограничений в Anthropic Console.
- Вы можете столкнуться с ограничениями скорости за более короткие временные интервалы. Например, скорость 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить ограничение скорости и привести к ошибкам ограничения скорости.
- Ограничения, изложенные ниже, являются нашими стандартными ограничениями уровня. Если вы ищете более высокие, пользовательские ограничения или Priority Tier для улучшенных уровней обслуживания, обратитесь к отделу продаж через Anthropic Console.
- Мы используем алгоритм корзины токенов для ограничения скорости. Это означает, что ваша пропускная способность непрерывно пополняется до вашего максимального лимита, а не сбрасывается через фиксированные интервалы.
- Все ограничения, описанные здесь, представляют максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для уменьшения непреднамеренных перерасходов и обеспечения справедливого распределения ресурсов среди пользователей.
Ограничения расходов
Каждый уровень использования имеет ограничение на то, сколько вы можете потратить на API каждый календарный месяц. Как только вы достигнете ограничения расходов вашего уровня, пока вы не квалифицируетесь для следующего уровня, вам придется ждать до следующего месяца, чтобы снова использовать API.
Чтобы квалифицироваться для следующего уровня, вы должны соответствовать требованию депозита. Чтобы минимизировать риск избыточного финансирования вашего аккаунта, вы не можете внести депозит больше вашего месячного лимита расходов.
Требования для повышения уровня
Уровень использования | Покупка кредитов | Максимальное использование в месяц |
---|---|---|
Уровень 1 | $5 | $100 |
Уровень 2 | $40 | $500 |
Уровень 3 | $200 | $1,000 |
Уровень 4 | $400 | $5,000 |
Ежемесячное выставление счетов | Н/Д | Н/Д |
Ограничения скорости
Наши ограничения скорости для Messages API измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса модели.
Если вы превысите любое из ограничений скорости, вы получите ошибку 429, описывающую, какое ограничение скорости было превышено, вместе с заголовком retry-after
, указывающим, сколько времени ждать.
Ограничения скорости ITPM оцениваются в начале каждого запроса, и оценка корректируется во время запроса, чтобы отразить фактическое количество использованных входных токенов.
Окончательная корректировка учитывает input_tokens
и cache_creation_input_tokens
в ограничениях скорости ITPM, в то время как cache_read_input_tokens
не учитываются (хотя они все еще тарифицируются).
В некоторых случаях cache_read_input_tokens
учитываются в ограничениях скорости ITPM.
Ограничения скорости OTPM оцениваются на основе max_tokens
в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов.
Если вы сталкиваетесь с ограничениями OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens
, чтобы лучше приблизить размер ваших завершений.
Ограничения скорости применяются отдельно для каждой модели; поэтому вы можете использовать разные модели до их соответствующих ограничений одновременно. Вы можете проверить свои текущие ограничения скорости и поведение в Anthropic Console.
Для запросов с длинным контекстом (>200K токенов) при использовании бета-заголовка context-1m-2025-08-07
с Claude Sonnet 4 применяются отдельные ограничения скорости. См. Ограничения скорости длинного контекста ниже.
Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 | 50 | 20,000† | 4,000 |
Claude Sonnet 3 | 50 | 40,000† | 8,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 | 50 | 20,000† | 4,000 |
Claude Sonnet 3 | 50 | 40,000† | 8,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 1,000 | 450,000 | 90,000 |
Claude Sonnet 4 | 1,000 | 450,000 | 90,000 |
Claude Sonnet 3.7 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 3.5 2024-10-22 | 1,000 | 80,000† | 16,000 |
Claude Sonnet 3.5 2024-06-20 | 1,000 | 80,000† | 16,000 |
Claude Haiku 3.5 | 1,000 | 100,000† | 20,000 |
Claude Opus 3 | 1,000 | 40,000† | 8,000 |
Claude Sonnet 3 | 1,000 | 80,000† | 16,000 |
Claude Haiku 3 | 1,000 | 100,000† | 20,000 |
Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 2,000 | 800,000 | 160,000 |
Claude Sonnet 4 | 2,000 | 800,000 | 160,000 |
Claude Sonnet 3.7 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 3.5 2024-10-22 | 2,000 | 160,000† | 32,000 |
Claude Sonnet 3.5 2024-06-20 | 2,000 | 160,000† | 32,000 |
Claude Haiku 3.5 | 2,000 | 200,000† | 40,000 |
Claude Opus 3 | 2,000 | 80,000† | 16,000 |
Claude Sonnet 3 | 2,000 | 160,000† | 32,000 |
Claude Haiku 3 | 2,000 | 200,000† | 40,000 |
Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 4 | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 3.7 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 3.5 2024-10-22 | 4,000 | 400,000† | 80,000 |
Claude Sonnet 3.5 2024-06-20 | 4,000 | 400,000† | 80,000 |
Claude Haiku 3.5 | 4,000 | 400,000† | 80,000 |
Claude Opus 3 | 4,000 | 400,000† | 80,000 |
Claude Sonnet 3 | 4,000 | 400,000† | 80,000 |
Claude Haiku 3 | 4,000 | 400,000† | 80,000 |
Если вы ищете более высокие ограничения для корпоративного использования, обратитесь к отделу продаж через Anthropic Console.
* - Ограничение скорости Opus 4.x является общим ограничением, которое применяется к объединенному трафику как Opus 4.0, так и Opus 4.1.
† - Ограничение учитывает cache_read_input_tokens
в использовании ITPM.
Message Batches API
Message Batches API имеет свой собственный набор ограничений скорости, которые разделяются между всеми моделями. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части Message Batch. Вы можете создать Message Batch, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом ограничении. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.
Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
50 | 100,000 | 100,000 |
Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
50 | 100,000 | 100,000 |
Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
1,000 | 200,000 | 100,000 |
Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
2,000 | 300,000 | 100,000 |
Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
4,000 | 500,000 | 100,000 |
Если вы ищете более высокие ограничения для корпоративного использования, обратитесь к отделу продаж через Anthropic Console.
Ограничения скорости длинного контекста
При использовании Claude Sonnet 4 с включенным окном контекста 1M токенов, следующие выделенные ограничения скорости применяются к запросам, превышающим 200K токенов.
Окно контекста 1M токенов в настоящее время находится в бета-версии для организаций уровня использования 4 и организаций с пользовательскими ограничениями скорости. Окно контекста 1M токенов доступно только для Claude Sonnet 4.
Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|
500,000 | 100,000 |
Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|
500,000 | 100,000 |
Для пользовательских ограничений скорости длинного контекста для корпоративных случаев использования обратитесь к отделу продаж через Anthropic Console.
Чтобы получить доступ к полному окну контекста 1M токенов с ограничением скорости 500K ITPM, вы можете использовать кэширование промптов.
Установка более низких ограничений для рабочих пространств
Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить пользовательские ограничения расходов и скорости для каждого рабочего пространства.
Пример: Если ограничение вашей организации составляет 40,000 входных токенов в минуту и 8,000 выходных токенов в минуту, вы можете ограничить одно рабочее пространство до 30,000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов по всей вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует ограничение) затем доступны для использования другими рабочими пространствами.
Примечание:
- Вы не можете установить ограничения на рабочее пространство по умолчанию.
- Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
- Ограничения на уровне организации всегда применяются, даже если ограничения рабочих пространств в сумме превышают их.
- Поддержка ограничений входных и выходных токенов будет добавлена в рабочие пространства в будущем.
Заголовки ответа
Ответ API включает заголовки, которые показывают вам применяемое ограничение скорости, текущее использование и когда ограничение будет сброшено.
Возвращаются следующие заголовки:
Заголовок | Описание |
---|---|
retry-after | Количество секунд ожидания, прежде чем вы сможете повторить запрос. Более ранние повторы завершатся неудачей. |
anthropic-ratelimit-requests-limit | Максимальное количество запросов, разрешенных в любом периоде ограничения скорости. |
anthropic-ratelimit-requests-remaining | Количество запросов, оставшихся до ограничения скорости. |
anthropic-ratelimit-requests-reset | Время, когда ограничение скорости запросов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-tokens-limit | Максимальное количество токенов, разрешенных в любом периоде ограничения скорости. |
anthropic-ratelimit-tokens-remaining | Количество токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-tokens-reset | Время, когда ограничение скорости токенов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Максимальное количество входных токенов, разрешенных в любом периоде ограничения скорости. |
anthropic-ratelimit-input-tokens-remaining | Количество входных токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-input-tokens-reset | Время, когда ограничение скорости входных токенов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Максимальное количество выходных токенов, разрешенных в любом периоде ограничения скорости. |
anthropic-ratelimit-output-tokens-remaining | Количество выходных токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-output-tokens-reset | Время, когда ограничение скорости выходных токенов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-priority-input-tokens-limit | Максимальное количество входных токенов Priority Tier, разрешенных в любом периоде ограничения скорости. (только Priority Tier) |
anthropic-priority-input-tokens-remaining | Количество входных токенов Priority Tier, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. (только Priority Tier) |
anthropic-priority-input-tokens-reset | Время, когда ограничение скорости входных токенов Priority Tier будет полностью восстановлено, предоставленное в формате RFC 3339. (только Priority Tier) |
anthropic-priority-output-tokens-limit | Максимальное количество выходных токенов Priority Tier, разрешенных в любом периоде ограничения скорости. (только Priority Tier) |
anthropic-priority-output-tokens-remaining | Количество выходных токенов Priority Tier, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. (только Priority Tier) |
anthropic-priority-output-tokens-reset | Время, когда ограничение скорости выходных токенов Priority Tier будет полностью восстановлено, предоставленное в формате RFC 3339. (только Priority Tier) |
Заголовки anthropic-ratelimit-tokens-*
отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили ограничение токенов рабочего пространства в минуту, заголовки будут содержать значения ограничения скорости токенов рабочего пространства в минуту. Если ограничения рабочего пространства не применяются, заголовки вернут общие оставшиеся токены, где общее количество является суммой входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее релевантного ограничения для вашего текущего использования API.