두 가지 유형의 제한이 있습니다:

  1. 지출 제한은 조직이 API 사용에 대해 발생할 수 있는 최대 월간 비용을 설정합니다.
  2. 요금 제한은 정의된 기간 동안 조직이 수행할 수 있는 최대 API 요청 수를 설정합니다.

서비스 구성 제한은 조직 수준에서 적용되지만, 조직의 워크스페이스에 대해 사용자 구성 가능한 제한을 설정할 수도 있습니다.

이러한 제한은 Standard 및 Priority Tier 사용 모두에 적용됩니다. 약정 지출에 대한 대가로 향상된 서비스 수준을 제공하는 Priority Tier에 대한 자세한 내용은 서비스 등급을 참조하세요.

제한 사항에 대하여

  • 제한은 일반적인 고객 사용 패턴에 미치는 영향을 최소화하면서 API 남용을 방지하도록 설계되었습니다.
  • 제한은 사용 등급별로 정의되며, 각 등급은 서로 다른 지출 및 요금 제한 세트와 연결됩니다.
  • API를 사용하는 동안 특정 임계값에 도달하면 조직의 등급이 자동으로 상승합니다. 제한은 조직 수준에서 설정됩니다. Anthropic Console제한 페이지에서 조직의 제한을 확인할 수 있습니다.
  • 짧은 시간 간격 동안 요금 제한에 도달할 수 있습니다. 예를 들어, 분당 60개 요청(RPM)의 속도는 초당 1개 요청으로 적용될 수 있습니다. 높은 볼륨의 짧은 요청 버스트는 요금 제한을 초과하여 요금 제한 오류를 초래할 수 있습니다.
  • 아래에 설명된 제한은 표준 등급 제한입니다. 더 높은 맞춤형 제한이나 향상된 서비스 수준을 위한 Priority Tier를 원하시면 Anthropic Console을 통해 영업팀에 문의하세요.
  • 요금 제한을 위해 토큰 버킷 알고리즘을 사용합니다. 이는 용량이 고정된 간격으로 재설정되는 것이 아니라 최대 제한까지 지속적으로 보충된다는 것을 의미합니다.
  • 여기에 설명된 모든 제한은 보장된 최소값이 아닌 최대 허용 사용량을 나타냅니다. 이러한 제한은 의도하지 않은 과도한 지출을 줄이고 사용자 간에 자원을 공정하게 분배하기 위한 것입니다.

지출 제한

각 사용 등급에는 매월 API에 지출할 수 있는 한도가 있습니다. 등급의 지출 한도에 도달하면 다음 등급에 자격이 될 때까지 다음 달이 되어야 API를 다시 사용할 수 있습니다.

다음 등급에 자격을 갖추려면 보증금 요구 사항을 충족해야 합니다. 계정에 과도한 자금을 입금하는 위험을 최소화하기 위해 월간 지출 한도 이상을 입금할 수 없습니다.

등급 상승 요구 사항

사용 등급크레딧 구매월 최대 사용량
등급 1$5$100
등급 2$40$500
등급 3$200$1,000
등급 4$400$5,000
월간 청구N/AN/A

요금 제한

Messages API에 대한 요금 제한은 각 모델 클래스에 대해 분당 요청 수(RPM), 분당 입력 토큰 수(ITPM) 및 분당 출력 토큰 수(OTPM)로 측정됩니다. 요금 제한을 초과하면 어떤 요금 제한이 초과되었는지 설명하는 429 오류와 함께 얼마나 기다려야 하는지 나타내는 retry-after 헤더가 표시됩니다.

ITPM 요금 제한은 각 요청 시작 시 추정되며, 추정치는 요청 중에 실제 사용된 입력 토큰 수를 반영하도록 조정됩니다. 최종 조정은 input_tokenscache_creation_input_tokens를 ITPM 요금 제한에 포함시키는 반면, cache_read_input_tokens는 포함되지 않습니다(그러나 여전히 청구됩니다). 일부 경우에는 cache_read_input_tokens가 ITPM 요금 제한에 포함됩니다.

OTPM 요금 제한은 각 요청 시작 시 max_tokens를 기반으로 추정되며, 추정치는 요청 종료 시 실제 사용된 출력 토큰 수를 반영하도록 조정됩니다. 예상보다 일찍 OTPM 제한에 도달한다면, 완성의 크기를 더 잘 근사하기 위해 max_tokens를 줄여보세요.

요금 제한은 각 모델에 대해 별도로 적용됩니다. 따라서 각각의 제한까지 다른 모델을 동시에 사용할 수 있습니다. Anthropic Console에서 현재 요금 제한과 동작을 확인할 수 있습니다.

모델분당 최대 요청 수(RPM)분당 최대 입력 토큰 수(ITPM)분당 최대 출력 토큰 수(OTPM)
Claude Opus 45020,0008,000
Claude Sonnet 45020,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22
5040,000*8,000
Claude Sonnet 3.5
2024-06-20
5040,000*8,000
Claude Haiku 3.55050,000*10,000
Claude Opus 35020,000*4,000
Claude Sonnet 35040,000*8,000
Claude Haiku 35050,000*10,000

별표(*)로 표시된 제한은 cache_read_input_tokens를 ITPM 사용량에 포함합니다.

Message Batches API

Message Batches API에는 모든 모델에서 공유되는 자체 요금 제한 세트가 있습니다. 여기에는 모든 API 엔드포인트에 대한 분당 요청 수(RPM) 제한과 동시에 처리 대기열에 있을 수 있는 배치 요청 수에 대한 제한이 포함됩니다. 여기서 “배치 요청”은 Message Batch의 일부를 의미합니다. 각각이 이 제한에 포함되는 수천 개의 배치 요청을 포함하는 Message Batch를 생성할 수 있습니다. 배치 요청은 모델에 의해 성공적으로 처리되지 않은 경우 처리 대기열의 일부로 간주됩니다.

분당 최대 요청 수(RPM)처리 대기열의 최대 배치 요청 수배치당 최대 배치 요청 수
50100,000100,000

워크스페이스에 대한 낮은 제한 설정

조직의 워크스페이스가 잠재적인 과도한 사용으로부터 보호하기 위해 워크스페이스별로 맞춤형 지출 및 요금 제한을 설정할 수 있습니다.

예: 조직의 제한이 분당 40,000개의 입력 토큰과 분당 8,000개의 출력 토큰인 경우, 한 워크스페이스를 분당 30,000개의 총 토큰으로 제한할 수 있습니다. 이는 다른 워크스페이스를 잠재적인 과도한 사용으로부터 보호하고 조직 전체에 자원을 더 공평하게 분배할 수 있도록 합니다. 남은 미사용 토큰(또는 해당 워크스페이스가 제한을 사용하지 않는 경우 더 많은 토큰)은 다른 워크스페이스가 사용할 수 있습니다.

참고:

  • 기본 워크스페이스에는 제한을 설정할 수 없습니다.
  • 설정하지 않으면 워크스페이스 제한은 조직의 제한과 일치합니다.
  • 워크스페이스 제한의 합계가 더 많더라도 조직 전체 제한이 항상 적용됩니다.
  • 입력 및 출력 토큰 제한에 대한 지원은 향후 워크스페이스에 추가될 예정입니다.

응답 헤더

API 응답에는 적용된 요금 제한, 현재 사용량 및 제한이 재설정되는 시기를 보여주는 헤더가 포함됩니다.

다음 헤더가 반환됩니다:

헤더설명
retry-after요청을 재시도할 수 있을 때까지 기다려야 하는 초 수입니다. 더 일찍 재시도하면 실패합니다.
anthropic-ratelimit-requests-limit요금 제한 기간 내에 허용되는 최대 요청 수입니다.
anthropic-ratelimit-requests-remaining요금 제한에 도달하기 전에 남은 요청 수입니다.
anthropic-ratelimit-requests-reset요청 요금 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-tokens-limit요금 제한 기간 내에 허용되는 최대 토큰 수입니다.
anthropic-ratelimit-tokens-remaining요금 제한에 도달하기 전에 남은 토큰 수(가장 가까운 천 단위로 반올림)입니다.
anthropic-ratelimit-tokens-reset토큰 요금 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-input-tokens-limit요금 제한 기간 내에 허용되는 최대 입력 토큰 수입니다.
anthropic-ratelimit-input-tokens-remaining요금 제한에 도달하기 전에 남은 입력 토큰 수(가장 가까운 천 단위로 반올림)입니다.
anthropic-ratelimit-input-tokens-reset입력 토큰 요금 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-output-tokens-limit요금 제한 기간 내에 허용되는 최대 출력 토큰 수입니다.
anthropic-ratelimit-output-tokens-remaining요금 제한에 도달하기 전에 남은 출력 토큰 수(가장 가까운 천 단위로 반올림)입니다.
anthropic-ratelimit-output-tokens-reset출력 토큰 요금 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-priority-input-tokens-limit요금 제한 기간 내에 허용되는 최대 Priority Tier 입력 토큰 수입니다. (Priority Tier만 해당)
anthropic-priority-input-tokens-remaining요금 제한에 도달하기 전에 남은 Priority Tier 입력 토큰 수(가장 가까운 천 단위로 반올림)입니다. (Priority Tier만 해당)
anthropic-priority-input-tokens-resetPriority Tier 입력 토큰 요금 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier만 해당)
anthropic-priority-output-tokens-limit요금 제한 기간 내에 허용되는 최대 Priority Tier 출력 토큰 수입니다. (Priority Tier만 해당)
anthropic-priority-output-tokens-remaining요금 제한에 도달하기 전에 남은 Priority Tier 출력 토큰 수(가장 가까운 천 단위로 반올림)입니다. (Priority Tier만 해당)
anthropic-priority-output-tokens-resetPriority Tier 출력 토큰 요금 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier만 해당)

anthropic-ratelimit-tokens-* 헤더는 현재 적용 중인 가장 제한적인 제한의 값을 표시합니다. 예를 들어, 워크스페이스 분당 토큰 제한을 초과한 경우 헤더에는 워크스페이스 분당 토큰 요금 제한 값이 포함됩니다. 워크스페이스 제한이 적용되지 않는 경우 헤더는 총 토큰 수를 반환하며, 총 토큰 수는 입력 및 출력 토큰의 합계입니다. 이 접근 방식은 현재 API 사용에 대한 가장 관련성 높은 제약 조건을 볼 수 있도록 합니다.