Ограничения
Чтобы предотвратить злоупотребления и управлять нагрузкой на наш API, мы внедрили ограничения на использование API Claude для организаций.
У нас есть два типа ограничений:
- Ограничения расходов устанавливают максимальную месячную стоимость, которую организация может потратить на использование API.
- Ограничения частоты запросов устанавливают максимальное количество API-запросов, которые организация может сделать за определенный период времени.
Мы применяем настроенные сервисом ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.
О наших ограничениях
- Ограничения разработаны для предотвращения злоупотребления API при минимальном влиянии на типичные схемы использования клиентами.
- Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и частоты запросов.
- Ваша организация будет автоматически повышать уровни по мере достижения определенных порогов при использовании API.
- Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Ограничений в Консоли Anthropic.
- Вы можете достичь ограничений частоты запросов за более короткие интервалы времени. Например, частота 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить ограничение частоты и привести к ошибкам превышения лимита.
- Приведенные ниже ограничения являются нашими стандартными ограничениями. Если вам нужны более высокие, индивидуальные ограничения, свяжитесь с отделом продаж через Консоль Anthropic.
- Мы используем алгоритм токенного ведра для ограничения частоты запросов.
- Все описанные здесь ограничения представляют собой максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для предотвращения чрезмерного использования и обеспечения справедливого распределения ресурсов между пользователями.
Ограничения расходов
Каждый уровень использования имеет ограничение на сумму, которую вы можете потратить на API каждый календарный месяц. Как только вы достигнете ограничения расходов вашего уровня, до тех пор, пока вы не получите право на следующий уровень, вам придется ждать следующего месяца, чтобы снова использовать API.
Чтобы получить право на следующий уровень, вы должны выполнить требование по депозиту и обязательный период ожидания. Более высокие уровни требуют более длительных периодов ожидания. Обратите внимание, чтобы минимизировать риск избыточного пополнения вашего счета, вы не можете внести депозит больше вашего месячного ограничения расходов.
Требования для повышения уровня
Уровень использования | Покупка кредитов | Ожидание после первой покупки | Максимальное использование в месяц |
---|---|---|---|
Уровень 1 | $5 | 0 дней | $100 |
Уровень 2 | $40 | 7 дней | $500 |
Уровень 3 | $200 | 7 дней | $1,000 |
Уровень 4 | $400 | 14 дней | $5,000 |
Ежемесячное выставление счетов | Н/Д | Н/Д | Н/Д |
Обновленные ограничения частоты запросов
Наши ограничения частоты запросов для API сообщений измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса моделей. Если вы превысите любое из ограничений частоты запросов, вы получите ошибку 429. Нажмите на уровень ограничения частоты запросов, чтобы просмотреть соответствующие ограничения.
Ограничения частоты отслеживаются для каждой модели. Поэтому модели в пределах одного уровня не имеют общего ограничения частоты.
Модель | Максимум запросов в минуту (RPM) | Максимум входных токенов в минуту (ITPM) | Максимум выходных токенов в минуту (OTPM) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000 | 8,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000 | 8,000 |
Claude 3.5 Haiku | 50 | 50,000 | 10,000 |
Claude 3 Opus | 50 | 20,000 | 4,000 |
Claude 3 Sonnet | 50 | 40,000 | 8,000 |
Claude 3 Haiku | 50 | 50,000 | 10,000 |
Ограничения OTPM оцениваются на основе max_tokens
в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов. Если вы достигаете ограничений OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens
, чтобы соответствовать размеру ваших завершений.
API пакетных сообщений
API пакетных сообщений имеет свой собственный набор ограничений частоты, которые являются общими для всех моделей. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части пакета сообщений. Вы можете создать пакет сообщений, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом ограничении. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.
Максимум запросов в минуту (RPM) | Максимум пакетных запросов в очереди обработки |
---|---|
50 | 100,000 |
Установка более низких ограничений для рабочих пространств
Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить пользовательские ограничения расходов и частоты для каждого рабочего пространства.
Пример: Если ограничение вашей организации составляет 48,000 токенов в минуту (40,000 входных токенов и 8,000 выходных токенов), вы можете ограничить одно рабочее пространство до 30,000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов в вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует лимит) затем становятся доступными для использования другими рабочими пространствами.
Примечание:
- Вы не можете установить ограничения для рабочего пространства по умолчанию.
- Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
- Ограничения на уровне организации всегда применяются, даже если ограничения рабочих пространств в сумме превышают их.
- Поддержка ограничений входных и выходных токенов будет добавлена в рабочие пространства в будущем.
Заголовки ответов
Ответ API включает заголовки, которые показывают вам применяемое ограничение частоты, текущее использование и когда ограничение буд
ет сброшено.
Возвращаются следующие заголовки:
Заголовок | Описание |
---|---|
anthropic-ratelimit-requests-limit | Максимальное количество запросов, разрешенных в течение любого периода ограничения частоты. |
anthropic-ratelimit-requests-remaining | Количество оставшихся запросов до достижения ограничения частоты. |
anthropic-ratelimit-requests-reset | Время, когда ограничение частоты запросов будет сброшено, предоставляется в формате RFC 3339. |
anthropic-ratelimit-tokens-limit | Максимальное количество токенов, разрешенных в течение любого периода ограничения частоты. |
anthropic-ratelimit-tokens-remaining | Количество оставшихся токенов (округлено до ближайшей тысячи) до достижения ограничения частоты. |
anthropic-ratelimit-tokens-reset | Время, когда ограничение частоты токенов будет сброшено, предоставляется в формате RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Максимальное количество входных токенов, разрешенных в течение любого периода ограничения частоты. |
anthropic-ratelimit-input-tokens-remaining | Количество оставшихся входных токенов (округлено до ближайшей тысячи) до достижения ограничения частоты. |
anthropic-ratelimit-input-tokens-reset | Время, когда ограничение частоты входных токенов будет сброшено, предоставляется в формате RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Максимальное количество выходных токенов, разрешенных в течение любого периода ограничения частоты. |
anthropic-ratelimit-output-tokens-remaining | Количество оставшихся выходных токенов (округлено до ближайшей тысячи) до достижения ограничения частоты. |
anthropic-ratelimit-output-tokens-reset | Время, когда ограничение частоты выходных токенов будет сброшено, предоставляется в формате RFC 3339. |
retry-after | Количество секунд до возможности повторной попытки запроса. |
Заголовки anthropic-ratelimit-tokens-*
отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили поминутный лимит токенов рабочего пространства, заголовки будут содержать значения поминутного ограничения токенов рабочего пространства. Если ограничения рабочего пространства не применяются, заголовки вернут общее количество оставшихся токенов, где общее количество является суммой входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее актуального ограничения вашего текущего использования API.
Устаревшие ограничения частоты
Наши ограничения частоты ранее измерялись в запросах в минуту, токенах в минуту и токенах в день для каждого класса моделей. Если вы превысите любое из ограничений частоты, вы получите ошибку 429. Нажмите на уровень ограничения частоты, чтобы просмотреть соответствующие ограничения.
Ограничения частоты отслеживаются для каждой модели, поэтому модели в пределах одного уровня не имеют общего ограничения частоты.
Модель | Максимум запросов в минуту (RPM) | Максимум токенов в минуту (TPM) | Максимум токенов в день (TPD) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000 | 1,000,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000 | 1,000,000 |
Claude 3.5 Haiku | 50 | 50,000 | 5,000,000 |
Claude 3 Opus | 50 | 20,000 | 1,000,000 |
Claude 3 Sonnet | 50 | 40,000 | 1,000,000 |
Claude 3 Haiku | 50 | 50,000 | 5,000,000 |
Was this page helpful?