우리는 두 가지 유형의 제한이 있습니다:

  1. 지출 제한은 조직이 API 사용에 대해 발생시킬 수 있는 월간 최대 비용을 설정합니다.
  2. 요율 제한은 정해진 시간 동안 조직이 만들 수 있는 최대 API 요청 수를 설정합니다.

우리는 조직 수준에서 서비스 구성 제한을 적용하지만, 조직의 워크스페이스에 대해 사용자 구성 가능한 제한을 설정할 수도 있습니다.

제한 사항에 대하여

  • 제한은 일반적인 고객 사용 패턴에 대한 영향을 최소화하면서 API 남용을 방지하도록 설계되었습니다.
  • 제한은 사용 등급별로 정의되며, 각 등급은 서로 다른 지출 및 요율 제한과 연관됩니다.
  • API를 사용하는 동안 특정 임계값에 도달하면 조직의 등급이 자동으로 상승합니다.
  • 제한은 조직 수준에서 설정됩니다. Anthropic Console제한 페이지에서 조직의 제한을 확인할 수 있습니다.
  • 더 짧은 시간 간격으로 요율 제한에 도달할 수 있습니다. 예를 들어, 분당 60개 요청(RPM)의 요율은 초당 1개 요청으로 적용될 수 있습니다. 높은 볼륨의 짧은 요청 버스트는 요율 제한을 초과하여 요율 제한 오류가 발생할 수 있습니다.
  • 아래 설명된 제한은 표준 제한입니다. 더 높은 맞춤형 제한을 원하시면 Anthropic Console을 통해 영업팀에 문의하세요.
  • 우리는 요율 제한을 위해 토큰 버킷 알고리즘을 사용합니다.
  • 여기에 설명된 모든 제한은 보장된 최소값이 아닌 최대 허용 사용량을 나타냅니다. 이러한 제한은 과다 사용을 방지하고 사용자 간의 공정한 자원 분배를 보장하도록 설계되었습니다.

지출 제한

각 사용 등급에는 매월 API에 지출할 수 있는 한도가 있습니다. 등급의 지출 한도에 도달하면 다음 등급에 자격이 될 때까지 다음 달까지 기다려야 API를 다시 사용할 수 있습니다.

다음 등급으로 자격을 얻으려면 보증금 요구사항과 필수 대기 기간을 충족해야 합니다. 더 높은 등급에는 더 긴 대기 기간이 필요합니다. 참고로, 계정의 과도한 자금 조달 위험을 최소화하기 위해 월간 지출 한도 이상을 입금할 수 없습니다.

등급 상승 요구사항

사용 등급크레딧 구매첫 구매 후 대기월 최대 사용량
등급 1$50일$100
등급 2$407일$500
등급 3$2007일$1,000
등급 4$40014일$5,000
월간 청구해당 없음해당 없음해당 없음

업데이트된 요율 제한

우리의 요율 제한은 각 모델 클래스에 대해 분당 요청 수, 분당 입력 토큰 수, 분당 출력 토큰 수로 측정됩니다. 요율 제한을 초과하면 429 오류가 발생합니다. 관련 요율 제한을 보려면 요율 제한 등급을 클릭하세요.

요율 제한은 모델별로 추적됩니다. 따라서 동일한 등급 내의 모델들은 요율 제한을 공유하지 않습니다.

모델최대 분당 요청 수 (RPM)최대 분당 입력 토큰 수 (ITPM)최대 분당 출력 토큰 수 (OTPM)
Claude 3.5 Sonnet
2024-10-22
5040,0008,000
Claude 3.5 Sonnet
2024-06-20
5040,0008,000
Claude 3.5 Haiku5050,00010,000
Claude 3 Opus5020,0004,000
Claude 3 Sonnet5040,0008,000
Claude 3 Haiku5050,00010,000

워크스페이스에 대한 낮은 제한 설정

조직의 워크스페이스가 잠재적 과다 사용으로부터 보호되도록 워크스페이스별로 맞춤형 지출 및 요율 제한을 설정할 수 있습니다.

예시: 조직의 제한이 분당 48,000 토큰(입력 토큰 40,000개와 출력 토큰 8,000개)인 경우, 한 워크스페이스를 분당 30,000 총 토큰으로 제한할 수 있습니다. 이는 다른 워크스페이스를 잠재적 과다 사용으로부터 보호하고 조직 전체에 걸쳐 더 공평한 자원 분배를 보장합니다. 남은 미사용 분당 토큰(또는 해당 워크스페이스가 제한을 사용하지 않는 경우 더 많은 토큰)은 다른 워크스페이스가 사용할 수 있게 됩니다.

참고:

  • 기본 워크스페이스에는 제한을 설정할 수 없습니다.
  • 설정되지 않은 경우, 워크스페이스 제한은 조직의 제한과 일치합니다.
  • 워크스페이스 제한의 합계가 더 크더라도 조직 전체 제한이 항상 적용됩니다.
  • 입력 및 출력 토큰 제한에 대한 워크스페이스 지원은 향후 추가될 예정입니다.

응답 헤더

API 응답에는 적용된 요율 제한, 현재 사용량 및 제한이 재설정되는 시기를 보여주는 헤더가 포함됩니다.

다음 헤더가 반환됩니다:

헤더설명
anthropic-ratelimit-requests-limit모든 요율 제한 기간 내에 허용되는 최대 요청 수입니다.
anthropic-ratelimit-requests-remaining요율 제한에 도달하기 전까지 남은 요청 수입니다.
anthropic-ratelimit-requests-reset요청 요율 제한이 재설정되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-tokens-limit모든 요율 제한 기간 내에 허용되는 최대 토큰 수입니다.
anthropic-ratelimit-tokens-remaining요율 제한에 도달하기 전까지 남은 토큰 수(천 단위로 반올림)입니다.
anthropic-ratelimit-tokens-reset토큰 요율 제한이 재설정되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-input-tokens-limit모든 요율 제한 기간 내에 허용되는 최대 입력 토큰 수입니다.
anthropic-ratelimit-input-tokens-remaining요율 제한에 도달하기 전까지 남은 입력 토큰 수(천 단위로 반올림)입니다.
anthropic-ratelimit-input-tokens-reset입력 토큰 요율 제한이 재설정되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-output-tokens-limit모든 요율 제한 기간 내에 허용되는 최대 출력 토큰 수입니다.
anthropic-ratelimit-output-tokens-remaining요율 제한에 도달하기 전까지 남은 출력 토큰 수(천 단위로 반올림)입니다.
anthropic-ratelimit-output-tokens-reset출력 토큰 요율 제한이 재설정되는 시간으로, RFC 3339 형식으로 제공됩니다.
retry-after요청을 재시도할 수 있을 때까지의 초 단위 시간입니다.

anthropic-ratelimit-tokens-* 헤더는 현재 적용 중인 가장 제한적인 제한의 값을 표시합니다. 예를 들어, 워크스페이스 분당 토큰 제한을 초과한 경우, 헤더는 워크스페이스 분당 토큰 요율 제한 값을 포함합니다. 워크스페이스 제한이 적용되지 않는 경우, 헤더는 총 남은 토큰 수를 반환하며, 총 토큰 수는 입력 및 출력 토큰의 합계입니다. 이 접근 방식은 현재 API 사용에 대한 가장 관련성 있는 제약 사항을 볼 수 있도록 보장합니다.

레거시 요율 제한

이전에는 요율 제한이 각 모델 클래스에 대해 분당 요청 수, 분당 토큰 수, 일당 토큰 수로 측정되었습니다. 요율 제한을 초과하면 429 오류가 발생합니다. 관련 요율 제한을 보려면 요율 제한 등급을 클릭하세요.

요율 제한은 모델별로 추적되므로 동일한 등급 내의 모델들은 요율 제한을 공유하지 않습니다.

모델최대 분당 요청 수 (RPM)최대 분당 토큰 수 (TPM)최대 일당 토큰 수 (TPD)
Claude 3.5 Sonnet
2024-10-22
5040,0001,000,000
Claude 3.5 Sonnet
2024-06-20
5040,0001,000,000
Claude 3.5 Haiku5050,0005,000,000
Claude 3 Opus5020,0001,000,000
Claude 3 Sonnet5040,0001,000,000
Claude 3 Haiku5050,0005,000,000