저희는 세 가지 서비스 등급을 제공합니다:

  • 우선 등급: 시간, 가용성 및 예측 가능한 가격이 중요한 프로덕션 환경에 배포된 워크플로우에 적합
  • 표준: 급증하는 트래픽이나 새로운 아이디어를 시도할 때 적합
  • 배치: 대기할 수 있거나 일반 용량 외부에서 이점을 얻을 수 있는 비동기 워크플로우에 적합

표준 등급

표준 등급은 모든 API 요청의 기본 서비스 등급입니다. 이 등급의 요청은 다른 모든 요청과 함께 우선 순위가 지정되며 최선의 가용성을 제공합니다.

우선 등급

이 등급의 요청은 Anthropic에 대한 다른 모든 요청보다 우선시됩니다. 이러한 우선 순위 지정을 통해 피크 시간대에도 “서버 과부하” 오류가 드물게 발생한다는 보장을 제공할 수 있습니다.

자세한 정보는 우선 등급 시작하기를 참조하세요.

요청이 등급에 할당되는 방법

요청을 처리할 때, Anthropic은 다음과 같은 시나리오에서 요청을 우선 등급에 할당합니다:

  • 귀하의 조직이 충분한 우선 등급 용량 입력 토큰(분당)을 보유한 경우
  • 귀하의 조직이 충분한 우선 등급 용량 출력 토큰(분당)을 보유한 경우

Anthropic은 다음과 같이 우선 등급 용량에 대한 사용량을 계산합니다:

입력 토큰

  • 캐시 읽기는 캐시에서 읽은 토큰당 0.1 토큰으로 계산
  • 5분 TTL로 캐시에 쓰는 경우 쓰여진 토큰당 1.25 토큰으로 계산
  • 1시간 TTL로 캐시에 쓰는 경우 쓰여진 토큰당 2.00 토큰으로 계산
  • 다른 모든 입력 토큰은 토큰당 1 토큰으로 계산

출력 토큰

  • 토큰당 1 토큰으로 계산

그 외의 경우, 요청은 표준 등급으로 처리됩니다.

우선 등급에 할당된 요청은 우선 등급 용량과 일반 속도 제한 모두에서 차감됩니다. 요청을 처리하면 속도 제한을 초과하게 되는 경우, 요청은 거부됩니다.

서비스 등급 사용하기

service_tier 매개변수를 설정하여 요청에 사용할 수 있는 서비스 등급을 제어할 수 있습니다:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # 가능한 경우 우선 등급 사용, 그렇지 않으면 표준으로 대체
)

service_tier 매개변수는 다음 값을 허용합니다:

  • "auto" (기본값) - 가능한 경우 우선 등급 용량을 사용하고, 그렇지 않은 경우 다른 용량으로 대체
  • "standard_only" - 우선 등급 용량을 사용하지 않으려는 경우 표준 등급 용량만 사용

응답 usage 객체에는 요청에 할당된 서비스 등급도 포함됩니다:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

이를 통해 요청에 어떤 서비스 등급이 할당되었는지 확인할 수 있습니다.

우선 등급 약정이 있는 모델에 대해 service_tier="auto"를 요청할 때, 다음 응답 헤더가 인사이트를 제공합니다:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

우선 등급 시작하기

다음과 같은 경우 우선 등급 용량에 약정하는 것이 좋습니다:

  • 높은 가용성: 우선적인 컴퓨팅 리소스와 함께 99.9% 가동 시간 SLA 제공
  • 비용 관리: 예측 가능한 지출과 장기 약정에 대한 할인
  • 유연한 오버플로우: 약정 용량을 초과할 경우 자동으로 표준 등급으로 대체

우선 등급에 약정하려면 다음 사항을 결정해야 합니다:

  • 분당 입력 토큰 수
  • 분당 출력 토큰 수
  • 약정 기간(1, 3, 6 또는 12개월)
  • 특정 모델 버전

구매하는 입력 대 출력 토큰의 비율이 중요합니다. 실제 트래픽 패턴에 맞게 우선 등급 용량을 조정하면 구매한 모든 토큰을 완전히 활용할 수 있습니다.

지원되는 모델

우선 등급은 다음 모델을 지원합니다:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (두 버전 모두)
  • Claude Haiku 3.5

모델에 대한 자세한 내용은 모델 개요 페이지를 확인하세요.

우선 등급 액세스 방법

우선 등급 사용을 시작하려면:

  1. Anthropic 콘솔을 통해 영업팀에 연락하여 프로비저닝을 완료하세요
  2. (선택 사항) API 요청을 업데이트하여 service_tier 매개변수를 auto로 설정하세요
  3. 응답 헤더와 Anthropic 콘솔을 통해 사용량을 모니터링하세요