속도 제한

두 가지 유형의 제한이 있습니다:

지출 제한은 조직이 API 사용에 대해 발생할 수 있는 최대 월별 비용을 설정합니다.
속도 제한은 조직이 정의된 기간 동안 만들 수 있는 최대 API 요청 수를 설정합니다.

조직 수준에서 서비스 구성 제한을 적용하지만, 조직의 워크스페이스에 대해 사용자 구성 가능한 제한을 설정할 수도 있습니다.

이러한 제한은 Standard 및 Priority Tier 사용 모두에 적용됩니다. 약정 지출에 대한 대가로 향상된 서비스 수준을 제공하는 Priority Tier에 대한 자세한 정보는 서비스 티어를 참조하세요.

제한에 대해

제한은 일반적인 고객 사용 패턴에 미치는 영향을 최소화하면서 API 남용을 방지하도록 설계되었습니다.
제한은 사용 티어로 정의되며, 각 티어는 서로 다른 지출 및 속도 제한 세트와 연결됩니다.
조직은 API를 사용하면서 특정 임계값에 도달하면 자동으로 티어가 증가합니다. 제한은 조직 수준에서 설정됩니다. Anthropic Console의 제한 페이지에서 조직의 제한을 확인할 수 있습니다.
더 짧은 시간 간격에서 속도 제한에 도달할 수 있습니다. 예를 들어, 분당 60개 요청(RPM)의 속도는 초당 1개 요청으로 적용될 수 있습니다. 높은 볼륨의 짧은 요청 버스트는 속도 제한을 초과하여 속도 제한 오류를 발생시킬 수 있습니다.
아래에 설명된 제한은 표준 티어 제한입니다. 더 높은 사용자 정의 제한이나 향상된 서비스 수준을 위한 Priority Tier를 원하는 경우, Anthropic Console을 통해 영업팀에 문의하세요.
속도 제한을 위해 토큰 버킷 알고리즘을 사용합니다. 이는 고정된 간격으로 재설정되는 것이 아니라 최대 제한까지 용량이 지속적으로 보충됨을 의미합니다.
여기에 설명된 모든 제한은 보장된 최소값이 아닌 허용되는 최대 사용량을 나타냅니다. 이러한 제한은 의도하지 않은 과지출을 줄이고 사용자 간의 공정한 리소스 분배를 보장하기 위한 것입니다.

지출 제한

각 사용 티어는 매월 API에 지출할 수 있는 금액에 제한이 있습니다. 티어의 지출 제한에 도달하면, 다음 티어 자격을 얻을 때까지 다음 달까지 기다려야 API를 다시 사용할 수 있습니다.

다음 티어 자격을 얻으려면 보증금 요구 사항을 충족해야 합니다. 계정에 과도한 자금을 입금할 위험을 최소화하기 위해 월별 지출 제한보다 많이 입금할 수 없습니다.

티어 승급 요구 사항

사용 티어	크레딧 구매	월별 최대 사용량
Tier 1	$5	$100
Tier 2	$40	$500
Tier 3	$200	$1,000
Tier 4	$400	$5,000
월별 청구	N/A	N/A

Messages API의 속도 제한은 각 모델 클래스에 대해 분당 요청 수(RPM), 분당 입력 토큰 수(ITPM), 분당 출력 토큰 수(OTPM)로 측정됩니다. 속도 제한 중 하나라도 초과하면 어떤 속도 제한이 초과되었는지 설명하는 429 오류와 함께 대기 시간을 나타내는 retry-after 헤더를 받게 됩니다.

ITPM 속도 제한은 각 요청 시작 시 추정되며, 실제 사용된 입력 토큰 수를 반영하기 위해 요청 중에 추정치가 조정됩니다. 최종 조정에서는 input_tokens와 cache_creation_input_tokens가 ITPM 속도 제한에 계산되는 반면, cache_read_input_tokens는 계산되지 않습니다(여전히 청구되지만). 일부 경우에는 cache_read_input_tokens가 ITPM 속도 제한에 계산됩니다.

OTPM 속도 제한은 각 요청 시작 시 max_tokens를 기반으로 추정되며, 실제 사용된 출력 토큰 수를 반영하기 위해 요청 끝에서 추정치가 조정됩니다. 예상보다 일찍 OTPM 제한에 도달하는 경우, 완성의 크기를 더 잘 근사하기 위해 max_tokens를 줄여보세요.

속도 제한은 각 모델에 대해 별도로 적용되므로 서로 다른 모델을 각각의 제한까지 동시에 사용할 수 있습니다. Anthropic Console에서 현재 속도 제한과 동작을 확인할 수 있습니다.

Claude Sonnet 4와 함께 context-1m-2025-08-07 베타 헤더를 사용하는 긴 컨텍스트 요청(>200K 토큰)의 경우 별도의 속도 제한이 적용됩니다. 아래의 긴 컨텍스트 속도 제한을 참조하세요.

모델	분당 최대 요청 수(RPM)	분당 최대 입력 토큰 수(ITPM)	분당 최대 출력 토큰 수(OTPM)
Claude Opus 4.x^*	50	30,000	8,000
Claude Sonnet 4	50	30,000	8,000
Claude Sonnet 3.7	50	20,000	8,000
Claude Sonnet 3.5 2024-10-22	50	40,000^†	8,000
Claude Sonnet 3.5 2024-06-20	50	40,000^†	8,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Opus 3	50	20,000^†	4,000
Claude Sonnet 3	50	40,000^†	8,000
Claude Haiku 3	50	50,000^†	10,000

모델	분당 최대 요청 수(RPM)	분당 최대 입력 토큰 수(ITPM)	분당 최대 출력 토큰 수(OTPM)
Claude Opus 4.x^*	50	30,000	8,000
Claude Sonnet 4	50	30,000	8,000
Claude Sonnet 3.7	50	20,000	8,000
Claude Sonnet 3.5 2024-10-22	50	40,000^†	8,000
Claude Sonnet 3.5 2024-06-20	50	40,000^†	8,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Opus 3	50	20,000^†	4,000
Claude Sonnet 3	50	40,000^†	8,000
Claude Haiku 3	50	50,000^†	10,000

모델	분당 최대 요청 수(RPM)	분당 최대 입력 토큰 수(ITPM)	분당 최대 출력 토큰 수(OTPM)
Claude Opus 4.x^*	1,000	450,000	90,000
Claude Sonnet 4	1,000	450,000	90,000
Claude Sonnet 3.7	1,000	40,000	16,000
Claude Sonnet 3.5 2024-10-22	1,000	80,000^†	16,000
Claude Sonnet 3.5 2024-06-20	1,000	80,000^†	16,000
Claude Haiku 3.5	1,000	100,000^†	20,000
Claude Opus 3	1,000	40,000^†	8,000
Claude Sonnet 3	1,000	80,000^†	16,000
Claude Haiku 3	1,000	100,000^†	20,000

모델	분당 최대 요청 수(RPM)	분당 최대 입력 토큰 수(ITPM)	분당 최대 출력 토큰 수(OTPM)
Claude Opus 4.x^*	2,000	800,000	160,000
Claude Sonnet 4	2,000	800,000	160,000
Claude Sonnet 3.7	2,000	80,000	32,000
Claude Sonnet 3.5 2024-10-22	2,000	160,000^†	32,000
Claude Sonnet 3.5 2024-06-20	2,000	160,000^†	32,000
Claude Haiku 3.5	2,000	200,000^†	40,000
Claude Opus 3	2,000	80,000^†	16,000
Claude Sonnet 3	2,000	160,000^†	32,000
Claude Haiku 3	2,000	200,000^†	40,000

모델	분당 최대 요청 수(RPM)	분당 최대 입력 토큰 수(ITPM)	분당 최대 출력 토큰 수(OTPM)
Claude Opus 4.x^*	4,000	2,000,000	400,000
Claude Sonnet 4	4,000	2,000,000	400,000
Claude Sonnet 3.7	4,000	200,000	80,000
Claude Sonnet 3.5 2024-10-22	4,000	400,000^†	80,000
Claude Sonnet 3.5 2024-06-20	4,000	400,000^†	80,000
Claude Haiku 3.5	4,000	400,000^†	80,000
Claude Opus 3	4,000	400,000^†	80,000
Claude Sonnet 3	4,000	400,000^†	80,000
Claude Haiku 3	4,000	400,000^†	80,000

엔터프라이즈 사용 사례를 위한 더 높은 제한을 원하는 경우, Anthropic Console을 통해 영업팀에 문의하세요.

^{* - Opus 4.x 속도 제한은 Opus 4.0과 Opus 4.1 모두의 결합된 트래픽에 적용되는 총 제한입니다.}

^{† - 제한은 cache_read_input_tokens를 ITPM 사용량에 계산합니다.}

Message Batches API

Message Batches API는 모든 모델에서 공유되는 자체 속도 제한 세트를 가지고 있습니다. 여기에는 모든 API 엔드포인트에 대한 분당 요청 수(RPM) 제한과 동시에 처리 대기열에 있을 수 있는 배치 요청 수에 대한 제한이 포함됩니다. 여기서 “배치 요청”은 Message Batch의 일부를 의미합니다. 수천 개의 배치 요청을 포함하는 Message Batch를 생성할 수 있으며, 각각은 이 제한에 계산됩니다. 배치 요청은 모델에 의해 성공적으로 처리되지 않은 경우 처리 대기열의 일부로 간주됩니다.

분당 최대 요청 수(RPM)	처리 대기열의 최대 배치 요청 수	배치당 최대 배치 요청 수
50	100,000	100,000

분당 최대 요청 수(RPM)	처리 대기열의 최대 배치 요청 수	배치당 최대 배치 요청 수
50	100,000	100,000

분당 최대 요청 수(RPM)	처리 대기열의 최대 배치 요청 수	배치당 최대 배치 요청 수
1,000	200,000	100,000

분당 최대 요청 수(RPM)	처리 대기열의 최대 배치 요청 수	배치당 최대 배치 요청 수
2,000	300,000	100,000

분당 최대 요청 수(RPM)	처리 대기열의 최대 배치 요청 수	배치당 최대 배치 요청 수
4,000	500,000	100,000

엔터프라이즈 사용 사례를 위한 더 높은 제한을 원하는 경우, Anthropic Console을 통해 영업팀에 문의하세요.

긴 컨텍스트 속도 제한

1M 토큰 컨텍스트 윈도우가 활성화된 Claude Sonnet 4를 사용할 때, 200K 토큰을 초과하는 요청에 다음과 같은 전용 속도 제한이 적용됩니다.

1M 토큰 컨텍스트 윈도우는 현재 사용 티어 4의 조직과 사용자 정의 속도 제한이 있는 조직에 대해 베타 상태입니다. 1M 토큰 컨텍스트 윈도우는 Claude Sonnet 4에서만 사용할 수 있습니다.

분당 최대 입력 토큰 수(ITPM)	분당 최대 출력 토큰 수(OTPM)
500,000	100,000

분당 최대 입력 토큰 수(ITPM)	분당 최대 출력 토큰 수(OTPM)
500,000	100,000

엔터프라이즈 사용 사례를 위한 사용자 정의 긴 컨텍스트 속도 제한은 Anthropic Console을 통해 영업팀에 문의하세요.

500K ITPM 속도 제한으로 전체 1M 토큰 컨텍스트 윈도우에 액세스하려면 프롬프트 캐싱을 사용할 수 있습니다.

워크스페이스에 대한 낮은 제한 설정

조직의 워크스페이스가 잠재적인 과사용으로부터 보호하기 위해 워크스페이스당 사용자 정의 지출 및 속도 제한을 설정할 수 있습니다.

예시: 조직의 제한이 분당 40,000개 입력 토큰과 분당 8,000개 출력 토큰인 경우, 한 워크스페이스를 분당 30,000개 총 토큰으로 제한할 수 있습니다. 이는 다른 워크스페이스를 잠재적인 과사용으로부터 보호하고 조직 전체에서 리소스의 보다 공평한 분배를 보장합니다. 남은 미사용 분당 토큰(또는 해당 워크스페이스가 제한을 사용하지 않는 경우 더 많이)은 다른 워크스페이스에서 사용할 수 있습니다.

참고:

기본 워크스페이스에는 제한을 설정할 수 없습니다.
설정하지 않으면 워크스페이스 제한은 조직의 제한과 일치합니다.
워크스페이스 제한의 합이 더 많더라도 조직 전체 제한이 항상 적용됩니다.
입력 및 출력 토큰 제한에 대한 지원은 향후 워크스페이스에 추가될 예정입니다.

응답 헤더

API 응답에는 적용된 속도 제한, 현재 사용량, 제한이 재설정되는 시점을 보여주는 헤더가 포함됩니다.

다음 헤더가 반환됩니다:

헤더	설명
`retry-after`	요청을 다시 시도할 수 있을 때까지 기다려야 하는 초 수입니다. 더 일찍 재시도하면 실패합니다.
`anthropic-ratelimit-requests-limit`	모든 속도 제한 기간 내에서 허용되는 최대 요청 수입니다.
`anthropic-ratelimit-requests-remaining`	속도 제한되기 전에 남은 요청 수입니다.
`anthropic-ratelimit-requests-reset`	요청 속도 제한이 완전히 보충될 시간으로, RFC 3339 형식으로 제공됩니다.
`anthropic-ratelimit-tokens-limit`	모든 속도 제한 기간 내에서 허용되는 최대 토큰 수입니다.
`anthropic-ratelimit-tokens-remaining`	속도 제한되기 전에 남은 토큰 수(천 단위로 반올림)입니다.
`anthropic-ratelimit-tokens-reset`	토큰 속도 제한이 완전히 보충될 시간으로, RFC 3339 형식으로 제공됩니다.
`anthropic-ratelimit-input-tokens-limit`	모든 속도 제한 기간 내에서 허용되는 최대 입력 토큰 수입니다.
`anthropic-ratelimit-input-tokens-remaining`	속도 제한되기 전에 남은 입력 토큰 수(천 단위로 반올림)입니다.
`anthropic-ratelimit-input-tokens-reset`	입력 토큰 속도 제한이 완전히 보충될 시간으로, RFC 3339 형식으로 제공됩니다.
`anthropic-ratelimit-output-tokens-limit`	모든 속도 제한 기간 내에서 허용되는 최대 출력 토큰 수입니다.
`anthropic-ratelimit-output-tokens-remaining`	속도 제한되기 전에 남은 출력 토큰 수(천 단위로 반올림)입니다.
`anthropic-ratelimit-output-tokens-reset`	출력 토큰 속도 제한이 완전히 보충될 시간으로, RFC 3339 형식으로 제공됩니다.
`anthropic-priority-input-tokens-limit`	모든 속도 제한 기간 내에서 허용되는 최대 Priority Tier 입력 토큰 수입니다. (Priority Tier 전용)
`anthropic-priority-input-tokens-remaining`	속도 제한되기 전에 남은 Priority Tier 입력 토큰 수(천 단위로 반올림)입니다. (Priority Tier 전용)
`anthropic-priority-input-tokens-reset`	Priority Tier 입력 토큰 속도 제한이 완전히 보충될 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier 전용)
`anthropic-priority-output-tokens-limit`	모든 속도 제한 기간 내에서 허용되는 최대 Priority Tier 출력 토큰 수입니다. (Priority Tier 전용)
`anthropic-priority-output-tokens-remaining`	속도 제한되기 전에 남은 Priority Tier 출력 토큰 수(천 단위로 반올림)입니다. (Priority Tier 전용)
`anthropic-priority-output-tokens-reset`	Priority Tier 출력 토큰 속도 제한이 완전히 보충될 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier 전용)

anthropic-ratelimit-tokens-* 헤더는 현재 적용 중인 가장 제한적인 제한의 값을 표시합니다. 예를 들어, 워크스페이스 분당 토큰 제한을 초과한 경우, 헤더에는 워크스페이스 분당 토큰 속도 제한 값이 포함됩니다. 워크스페이스 제한이 적용되지 않는 경우, 헤더는 남은 총 토큰을 반환하며, 여기서 총합은 입력 및 출력 토큰의 합입니다. 이 접근 방식은 현재 API 사용에 대한 가장 관련성 있는 제약 조건에 대한 가시성을 보장합니다.

API 사용하기

API 참조

SDK

예시

서드파티 API

Admin API 사용하기

지원 및 구성

속도 제한

제한에 대해

지출 제한

티어 승급 요구 사항

속도 제한

Message Batches API

긴 컨텍스트 속도 제한

워크스페이스에 대한 낮은 제한 설정

응답 헤더

API 사용하기

API 참조

SDK

예시

서드파티 API

Admin API 사용하기

지원 및 구성

​제한에 대해

​지출 제한

​티어 승급 요구 사항

​속도 제한

​Message Batches API

​긴 컨텍스트 속도 제한

​워크스페이스에 대한 낮은 제한 설정

​응답 헤더

제한에 대해

지출 제한

티어 승급 요구 사항

속도 제한

Message Batches API

긴 컨텍스트 속도 제한

워크스페이스에 대한 낮은 제한 설정

응답 헤더