Ограничения скорости

У нас есть два типа ограничений:

Ограничения расходов устанавливают максимальную месячную стоимость, которую организация может понести за использование API.
Ограничения скорости устанавливают максимальное количество запросов к API, которые организация может сделать за определенный период времени.

Мы применяем настроенные службой ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.

Эти ограничения применяются как к использованию Standard, так и Priority Tier. Для получения дополнительной информации о Priority Tier, который предлагает улучшенные уровни обслуживания в обмен на обязательные расходы, см. Уровни обслуживания.

О наших ограничениях

Ограничения предназначены для предотвращения злоупотреблений API, минимизируя при этом влияние на общие шаблоны использования клиентов.
Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и скорости.
Ваша организация будет автоматически повышать уровни по мере достижения определенных пороговых значений при использовании API. Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Ограничений в Anthropic Console.
Вы можете столкнуться с ограничениями скорости за более короткие временные интервалы. Например, скорость 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить ограничение скорости и привести к ошибкам ограничения скорости.
Ограничения, изложенные ниже, являются нашими стандартными ограничениями уровня. Если вы ищете более высокие, пользовательские ограничения или Priority Tier для улучшенных уровней обслуживания, обратитесь к отделу продаж через Anthropic Console.
Мы используем алгоритм корзины токенов для ограничения скорости. Это означает, что ваша пропускная способность непрерывно пополняется до вашего максимального лимита, а не сбрасывается через фиксированные интервалы.
Все ограничения, описанные здесь, представляют максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для уменьшения непреднамеренных перерасходов и обеспечения справедливого распределения ресурсов среди пользователей.

Ограничения расходов

Каждый уровень использования имеет ограничение на то, сколько вы можете потратить на API каждый календарный месяц. Как только вы достигнете ограничения расходов вашего уровня, пока вы не квалифицируетесь для следующего уровня, вам придется ждать до следующего месяца, чтобы снова использовать API.

Чтобы квалифицироваться для следующего уровня, вы должны соответствовать требованию депозита. Чтобы минимизировать риск избыточного финансирования вашего аккаунта, вы не можете внести депозит больше вашего месячного лимита расходов.

Требования для повышения уровня

Уровень использования	Покупка кредитов	Максимальное использование в месяц
Уровень 1	$5	$100
Уровень 2	$40	$500
Уровень 3	$200	$1,000
Уровень 4	$400	$5,000
Ежемесячное выставление счетов	Н/Д	Н/Д

Ограничения скорости

Наши ограничения скорости для Messages API измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса модели. Если вы превысите любое из ограничений скорости, вы получите ошибку 429, описывающую, какое ограничение скорости было превышено, вместе с заголовком retry-after, указывающим, сколько времени ждать.

Ограничения скорости ITPM оцениваются в начале каждого запроса, и оценка корректируется во время запроса, чтобы отразить фактическое количество использованных входных токенов. Окончательная корректировка учитывает input_tokens и cache_creation_input_tokens в ограничениях скорости ITPM, в то время как cache_read_input_tokens не учитываются (хотя они все еще тарифицируются). В некоторых случаях cache_read_input_tokens учитываются в ограничениях скорости ITPM.

Ограничения скорости OTPM оцениваются на основе max_tokens в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов. Если вы сталкиваетесь с ограничениями OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens, чтобы лучше приблизить размер ваших завершений.

Ограничения скорости применяются отдельно для каждой модели; поэтому вы можете использовать разные модели до их соответствующих ограничений одновременно. Вы можете проверить свои текущие ограничения скорости и поведение в Anthropic Console.

Для запросов с длинным контекстом (>200K токенов) при использовании бета-заголовка context-1m-2025-08-07 с Claude Sonnet 4 применяются отдельные ограничения скорости. См. Ограничения скорости длинного контекста ниже.

Модель	Максимальные запросы в минуту (RPM)	Максимальные входные токены в минуту (ITPM)	Максимальные выходные токены в минуту (OTPM)
Claude Opus 4.x^*	50	30,000	8,000
Claude Sonnet 4	50	30,000	8,000
Claude Sonnet 3.7	50	20,000	8,000
Claude Sonnet 3.5 2024-10-22	50	40,000^†	8,000
Claude Sonnet 3.5 2024-06-20	50	40,000^†	8,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Opus 3	50	20,000^†	4,000
Claude Sonnet 3	50	40,000^†	8,000
Claude Haiku 3	50	50,000^†	10,000

Модель	Максимальные запросы в минуту (RPM)	Максимальные входные токены в минуту (ITPM)	Максимальные выходные токены в минуту (OTPM)
Claude Opus 4.x^*	50	30,000	8,000
Claude Sonnet 4	50	30,000	8,000
Claude Sonnet 3.7	50	20,000	8,000
Claude Sonnet 3.5 2024-10-22	50	40,000^†	8,000
Claude Sonnet 3.5 2024-06-20	50	40,000^†	8,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Opus 3	50	20,000^†	4,000
Claude Sonnet 3	50	40,000^†	8,000
Claude Haiku 3	50	50,000^†	10,000

Модель	Максимальные запросы в минуту (RPM)	Максимальные входные токены в минуту (ITPM)	Максимальные выходные токены в минуту (OTPM)
Claude Opus 4.x^*	1,000	450,000	90,000
Claude Sonnet 4	1,000	450,000	90,000
Claude Sonnet 3.7	1,000	40,000	16,000
Claude Sonnet 3.5 2024-10-22	1,000	80,000^†	16,000
Claude Sonnet 3.5 2024-06-20	1,000	80,000^†	16,000
Claude Haiku 3.5	1,000	100,000^†	20,000
Claude Opus 3	1,000	40,000^†	8,000
Claude Sonnet 3	1,000	80,000^†	16,000
Claude Haiku 3	1,000	100,000^†	20,000

Модель	Максимальные запросы в минуту (RPM)	Максимальные входные токены в минуту (ITPM)	Максимальные выходные токены в минуту (OTPM)
Claude Opus 4.x^*	2,000	800,000	160,000
Claude Sonnet 4	2,000	800,000	160,000
Claude Sonnet 3.7	2,000	80,000	32,000
Claude Sonnet 3.5 2024-10-22	2,000	160,000^†	32,000
Claude Sonnet 3.5 2024-06-20	2,000	160,000^†	32,000
Claude Haiku 3.5	2,000	200,000^†	40,000
Claude Opus 3	2,000	80,000^†	16,000
Claude Sonnet 3	2,000	160,000^†	32,000
Claude Haiku 3	2,000	200,000^†	40,000

Модель	Максимальные запросы в минуту (RPM)	Максимальные входные токены в минуту (ITPM)	Максимальные выходные токены в минуту (OTPM)
Claude Opus 4.x^*	4,000	2,000,000	400,000
Claude Sonnet 4	4,000	2,000,000	400,000
Claude Sonnet 3.7	4,000	200,000	80,000
Claude Sonnet 3.5 2024-10-22	4,000	400,000^†	80,000
Claude Sonnet 3.5 2024-06-20	4,000	400,000^†	80,000
Claude Haiku 3.5	4,000	400,000^†	80,000
Claude Opus 3	4,000	400,000^†	80,000
Claude Sonnet 3	4,000	400,000^†	80,000
Claude Haiku 3	4,000	400,000^†	80,000

Если вы ищете более высокие ограничения для корпоративного использования, обратитесь к отделу продаж через Anthropic Console.

^{* - Ограничение скорости Opus 4.x является общим ограничением, которое применяется к объединенному трафику как Opus 4.0, так и Opus 4.1.}

^{† - Ограничение учитывает cache_read_input_tokens в использовании ITPM.}

Message Batches API

Message Batches API имеет свой собственный набор ограничений скорости, которые разделяются между всеми моделями. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части Message Batch. Вы можете создать Message Batch, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом ограничении. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.

Максимальные запросы в минуту (RPM)	Максимальные пакетные запросы в очереди обработки	Максимальные пакетные запросы на пакет
50	100,000	100,000

Максимальные запросы в минуту (RPM)	Максимальные пакетные запросы в очереди обработки	Максимальные пакетные запросы на пакет
50	100,000	100,000

Максимальные запросы в минуту (RPM)	Максимальные пакетные запросы в очереди обработки	Максимальные пакетные запросы на пакет
1,000	200,000	100,000

Максимальные запросы в минуту (RPM)	Максимальные пакетные запросы в очереди обработки	Максимальные пакетные запросы на пакет
2,000	300,000	100,000

Максимальные запросы в минуту (RPM)	Максимальные пакетные запросы в очереди обработки	Максимальные пакетные запросы на пакет
4,000	500,000	100,000

Ограничения скорости длинного контекста

При использовании Claude Sonnet 4 с включенным окном контекста 1M токенов, следующие выделенные ограничения скорости применяются к запросам, превышающим 200K токенов.

Окно контекста 1M токенов в настоящее время находится в бета-версии для организаций уровня использования 4 и организаций с пользовательскими ограничениями скорости. Окно контекста 1M токенов доступно только для Claude Sonnet 4.

Максимальные входные токены в минуту (ITPM)	Максимальные выходные токены в минуту (OTPM)
500,000	100,000

Максимальные входные токены в минуту (ITPM)	Максимальные выходные токены в минуту (OTPM)
500,000	100,000

Для пользовательских ограничений скорости длинного контекста для корпоративных случаев использования обратитесь к отделу продаж через Anthropic Console.

Чтобы получить доступ к полному окну контекста 1M токенов с ограничением скорости 500K ITPM, вы можете использовать кэширование промптов.

Установка более низких ограничений для рабочих пространств

Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить пользовательские ограничения расходов и скорости для каждого рабочего пространства.

Пример: Если ограничение вашей организации составляет 40,000 входных токенов в минуту и 8,000 выходных токенов в минуту, вы можете ограничить одно рабочее пространство до 30,000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов по всей вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует ограничение) затем доступны для использования другими рабочими пространствами.

Примечание:

Вы не можете установить ограничения на рабочее пространство по умолчанию.
Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
Ограничения на уровне организации всегда применяются, даже если ограничения рабочих пространств в сумме превышают их.
Поддержка ограничений входных и выходных токенов будет добавлена в рабочие пространства в будущем.

Заголовки ответа

Ответ API включает заголовки, которые показывают вам применяемое ограничение скорости, текущее использование и когда ограничение будет сброшено.

Возвращаются следующие заголовки:

Заголовок	Описание
`retry-after`	Количество секунд ожидания, прежде чем вы сможете повторить запрос. Более ранние повторы завершатся неудачей.
`anthropic-ratelimit-requests-limit`	Максимальное количество запросов, разрешенных в любом периоде ограничения скорости.
`anthropic-ratelimit-requests-remaining`	Количество запросов, оставшихся до ограничения скорости.
`anthropic-ratelimit-requests-reset`	Время, когда ограничение скорости запросов будет полностью восстановлено, предоставленное в формате RFC 3339.
`anthropic-ratelimit-tokens-limit`	Максимальное количество токенов, разрешенных в любом периоде ограничения скорости.
`anthropic-ratelimit-tokens-remaining`	Количество токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости.
`anthropic-ratelimit-tokens-reset`	Время, когда ограничение скорости токенов будет полностью восстановлено, предоставленное в формате RFC 3339.
`anthropic-ratelimit-input-tokens-limit`	Максимальное количество входных токенов, разрешенных в любом периоде ограничения скорости.
`anthropic-ratelimit-input-tokens-remaining`	Количество входных токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости.
`anthropic-ratelimit-input-tokens-reset`	Время, когда ограничение скорости входных токенов будет полностью восстановлено, предоставленное в формате RFC 3339.
`anthropic-ratelimit-output-tokens-limit`	Максимальное количество выходных токенов, разрешенных в любом периоде ограничения скорости.
`anthropic-ratelimit-output-tokens-remaining`	Количество выходных токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости.
`anthropic-ratelimit-output-tokens-reset`	Время, когда ограничение скорости выходных токенов будет полностью восстановлено, предоставленное в формате RFC 3339.
`anthropic-priority-input-tokens-limit`	Максимальное количество входных токенов Priority Tier, разрешенных в любом периоде ограничения скорости. (только Priority Tier)
`anthropic-priority-input-tokens-remaining`	Количество входных токенов Priority Tier, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. (только Priority Tier)
`anthropic-priority-input-tokens-reset`	Время, когда ограничение скорости входных токенов Priority Tier будет полностью восстановлено, предоставленное в формате RFC 3339. (только Priority Tier)
`anthropic-priority-output-tokens-limit`	Максимальное количество выходных токенов Priority Tier, разрешенных в любом периоде ограничения скорости. (только Priority Tier)
`anthropic-priority-output-tokens-remaining`	Количество выходных токенов Priority Tier, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. (только Priority Tier)
`anthropic-priority-output-tokens-reset`	Время, когда ограничение скорости выходных токенов Priority Tier будет полностью восстановлено, предоставленное в формате RFC 3339. (только Priority Tier)

Заголовки anthropic-ratelimit-tokens-* отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили ограничение токенов рабочего пространства в минуту, заголовки будут содержать значения ограничения скорости токенов рабочего пространства в минуту. Если ограничения рабочего пространства не применяются, заголовки вернут общие оставшиеся токены, где общее количество является суммой входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее релевантного ограничения для вашего текущего использования API.

Обзор Уровни обслуживания

On this page

О наших ограничениях
Ограничения расходов
Требования для повышения уровня
Ограничения скорости
Message Batches API
Ограничения скорости длинного контекста
Установка более низких ограничений для рабочих пространств
Заголовки ответа

Использование API

Справочник API

SDK

Примеры

API третьих сторон

Использование Admin API

Поддержка и настройка

Ограничения скорости

О наших ограничениях

Ограничения расходов

Требования для повышения уровня

Ограничения скорости

Message Batches API

Ограничения скорости длинного контекста

Установка более низких ограничений для рабочих пространств

Заголовки ответа

Использование API

Справочник API

SDK

Примеры

API третьих сторон

Использование Admin API

Поддержка и настройка

​О наших ограничениях

​Ограничения расходов

​Требования для повышения уровня

​Ограничения скорости

​Message Batches API

​Ограничения скорости длинного контекста

​Установка более низких ограничений для рабочих пространств

​Заголовки ответа

О наших ограничениях

Ограничения расходов

Требования для повышения уровня

Ограничения скорости

Message Batches API

Ограничения скорости длинного контекста

Установка более низких ограничений для рабочих пространств

Заголовки ответа