요금 제한
API의 오용을 방지하고 용량을 관리하기 위해 조직이 Claude API를 사용할 수 있는 한도를 설정했습니다.
두 가지 유형의 제한이 있습니다:
- 지출 제한은 조직이 API 사용에 대해 발생시킬 수 있는 월간 최대 비용을 설정합니다.
- 요금 제한은 조직이 정해진 기간 동안 할 수 있는 최대 API 요청 수를 설정합니다.
서비스에서 구성된 제한은 조직 수준에서 적용되지만, 조직의 워크스페이스에 대해 사용자가 구성 가능한 제한을 설정할 수도 있습니다.
제한 사항에 대하여
- 제한은 일반적인 고객 사용 패턴에 대한 영향을 최소화하면서 API 남용을 방지하도록 설계되었습니다.
- 제한은 사용 등급별로 정의되며, 각 등급은 서로 다른 지출 및 요금 제한과 연관됩니다.
- API를 사용하는 동안 특정 임계값에 도달하면 조직의 등급이 자동으로 상승합니다.
- 제한은 조직 수준에서 설정됩니다. Anthropic Console의 제한 페이지에서 조직의 제한을 확인할 수 있습니다.
- 더 짧은 시간 간격으로 요금 제한에 도달할 수 있습니다. 예를 들어, 분당 60개 요청(RPM)은 초당 1개 요청으로 적용될 수 있습니다. 높은 볼륨의 짧은 요청 버스트는 요금 제한을 초과하여 요금 제한 오류가 발생할 수 있습니다.
- 아래 설명된 제한은 표준 제한입니다. 더 높은 맞춤형 제한을 원하시면 Anthropic Console을 통해 영업팀에 문의하세요.
- 요금 제한을 위해 토큰 버킷 알고리즘을 사용합니다.
- 여기에 설명된 모든 제한은 보장된 최소값이 아닌 최대 허용 사용량을 나타냅니다. 이러한 제한은 과다 사용을 방지하고 사용자 간의 공정한 자원 분배를 보장하도록 설계되었습니다.
지출 제한
각 사용 등급에는 매월 API에 지출할 수 있는 한도가 있습니다. 등급의 지출 한도에 도달하면 다음 등급에 자격을 갖출 때까지 다음 달이 되어야 API를 다시 사용할 수 있습니다.
다음 등급에 자격을 갖추려면 예치금 요건과 필수 대기 기간을 충족해야 합니다. 더 높은 등급에는 더 긴 대기 기간이 필요합니다. 계정에 과도한 자금을 예치하는 위험을 최소화하기 위해 월간 지출 한도 이상을 예치할 수 없습니다.
등급 상승 요건
사용 등급 | 크레딧 구매 | 첫 구매 후 대기 | 월 최대 사용량 |
---|---|---|---|
등급 1 | $5 | 0일 | $100 |
등급 2 | $40 | 7일 | $500 |
등급 3 | $200 | 7일 | $1,000 |
등급 4 | $400 | 14일 | $5,000 |
월간 청구 | 해당 없음 | 해당 없음 | 해당 없음 |
업데이트된 요금 제한
Messages API에 대한 요금 제한은 각 모델 클래스에 대해 분당 요청 수(RPM), 분당 입력 토큰 수(ITPM), 분당 출력 토큰 수(OTPM)로 측정됩니다. 요금 제한을 초과하면 429 오류가 발생합니다. 관련 요금 제한을 보려면 요금 제한 등급을 클릭하세요.
요금 제한은 모델별로 추적됩니다. 따라서 동일한 등급 내의 모델은 요금 제한을 공유하지 않습니다.
모델 | 최대 분당 요청 수(RPM) | 최대 분당 입력 토큰 수(ITPM) | 최대 분당 출력 토큰 수(OTPM) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000 | 8,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000 | 8,000 |
Claude 3.5 Haiku | 50 | 50,000 | 10,000 |
Claude 3 Opus | 50 | 20,000 | 4,000 |
Claude 3 Sonnet | 50 | 40,000 | 8,000 |
Claude 3 Haiku | 50 | 50,000 | 10,000 |
OTPM 요금 제한은 각 요청 시작 시 max_tokens
를 기준으로 추정되며, 실제 사용된 출력 토큰 수를 반영하도록 요청 종료 시 추정치가 조정됩니다. 예상보다 일찍 OTPM 제한에 도달하는 경우, max_tokens
를 완성 크기에 맞게 줄여보세요.
Message Batches API
Message Batches API는 모든 모델에서 공유되는 자체 요금 제한 세트를 가지고 있습니다. 여기에는 모든 API 엔드포인트에 대한 분당 요청 수(RPM) 제한과 동시에 처리 대기열에 있을 수 있는 배치 요청 수 제한이 포함됩니다. 여기서 “배치 요청”은 Message Batch의 일부를 의미합니다. 각각이 이 제한에 포함되는 수천 개의 배치 요청을 포함하는 Message Batch를 생성할 수 있습니다. 배치 요청은 모델에 의해 성공적으로 처리되지 않은 경우 처리 대기열의 일부로 간주됩니다.
최대 분당 요청 수(RPM) | 처리 대기열의 최대 배치 요청 수 |
---|---|
50 | 100,000 |
워크스페이스에 대한 낮은 제한 설정
조직의 워크스페이스가 잠재적인 과다 사용으로부터 보호되도록 워크스페이스별로 맞춤형 지출 및 요금 제한을 설정할 수 있습니다.
예: 조직의 제한이 분당 48,000 토큰(입력 토큰 40,000개와 출력 토큰 8,000개)인 경우, 한 워크스페이스를 분당 30,000 총 토큰으로 제한할 수 있습니다. 이는 다른 워크스페이스를 잠재적인 과다 사용으로부터 보호하고 조직 전체에서 자원의 더 공평한 분배를 보장합니다. 남은 미사용 분당 토큰(또는 해당 워크스페이스가 제한을 사용하지 않는 경우 더 많은 토큰)은 다른 워크스페이스가 사용할 수 있습니다.
참고:
- 기본 워크스페이스에는 제한을 설정할 수 없습니다.
- 설정하지 않으면 워크스페이스 제한은 조직의 제한과 일치합니다.
- 워크스페이스 제한의 합계가 더 크더라도 조직 전체 제한이 항상 적용됩니다.
- 입력 및 출력 토큰 제한에 대한 워크스페이스 지원은 향후 추가될 예정입니다.
응답 헤더
API 응답에는 적용된 요금 제한, 현재 사용량 및 제한이 재설정되는 시기를 보여주는 헤더가 포함됩니다.
다음 헤더가 반환됩니다:
헤더 | 설명 |
---|---|
anthropic-ratelimit-requests-limit | 요금 제한 기간 내에 허용되는 최대 요청 수입니다. |
anthropic-ratelimit-requests-remaining | 요금 제한에 도달하기 전까지 남은 요청 수입니다. |
anthropic-ratelimit-requests-reset | 요청 요금 제한이 재설정되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-ratelimit-tokens-limit | 요금 제한 기간 내에 허용되는 최대 토큰 수입니다. |
anthropic-ratelimit-tokens-remaining | 요금 제한에 도달하기 전까지 남은 토큰 수(천 단위로 반올림)입니다. |
anthropic-ratelimit-tokens-reset | 토큰 요금 제한이 재설정되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-ratelimit-input-tokens-limit | 요금 제한 기간 내에 허용되는 최대 입력 토큰 수입니다. |
anthropic-ratelimit-input-tokens-remaining | 요금 제한에 도달하기 전까지 남은 입력 토큰 수(천 단위로 반올림)입니다. |
anthropic-ratelimit-input-tokens-reset | 입력 토큰 요금 제한이 재설정되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-ratelimit-output-tokens-limit | 요금 제한 기간 내에 허용되는 최대 출력 토큰 수입니다. |
anthropic-ratelimit-output-tokens-remaining | 요금 제한에 도달하기 전까지 남은 출력 토큰 수(천 단위로 반올림)입니다. |
anthropic-ratelimit-output-tokens-reset | 출력 토큰 요금 제한이 재설정되는 시간으로, RFC 3339 형식으로 제공됩니다. |
retry-after | 요청을 재시도할 수 있을 때까지의 초 단위 시간입니다. |
anthropic-ratelimit-tokens-*
헤더는 현재 적용 중인 가장 제한적인 제한의 값을 표시합니다. 예를 들어, 워크스페이스 분당 토큰 제한을 초과한 경우 헤더에는 워크스페이스 분당 토큰 요금 제한 값이 포함됩니다. 워크스페이스 제한이 적용되지 않는 경우, 헤더는 입력 및 출력 토큰의 합계인 총 남은 토큰 수를 반환합니다. 이 접근 방식은 현재 API 사용에 대한 가장 관련성 있는 제약 사항을 볼 수 있도록 보장합니다.
레거시 요금 제한
이전에는 요금 제한이 각 모델 클래스에 대해 분당 요청 수, 분당 토큰 수, 일당 토큰 수로 측정되었습니다. 요금 제한을 초과하면 429 오류가 발생합니다. 관련 요금 제한을 보려면 요금 제한 등급을 클릭하세요.
요금 제한은 모델별로 추적되므로 동일한 등급 내의 모델은 요금 제한을 공유하지 않습니다.
모델 | 최대 분당 요청 수(RPM) | 최대 분당 토큰 수(TPM) | 최대 일당 토큰 수(TPD) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000 | 1,000,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000 | 1,000,000 |
Claude 3.5 Haiku | 50 | 50,000 | 5,000,000 |
Claude 3 Opus | 50 | 20,000 | 1,000,000 |
Claude 3 Sonnet | 50 | 40,000 | 1,000,000 |
Claude 3 Haiku | 50 | 50,000 | 5,000,000 |