저희는 세 가지 서비스 티어를 제공합니다:

  • Priority Tier: 시간, 가용성, 예측 가능한 가격이 중요한 프로덕션 환경에 배포된 워크플로우에 가장 적합
  • Standard: 버스트 트래픽이나 새로운 아이디어를 시도할 때 가장 적합
  • Batch: 대기할 수 있거나 일반적인 용량 외부에서 처리되는 것이 유리한 비동기 워크플로우에 가장 적합

Standard Tier

Standard Tier는 모든 API 요청의 기본 서비스 티어입니다. 이 티어의 요청은 다른 모든 요청과 함께 우선순위가 매겨지며 최선의 노력 가용성을 제공합니다.

Priority Tier

이 티어의 요청은 Anthropic에 대한 다른 모든 요청보다 우선순위가 높습니다. 이러한 우선순위 부여는 피크 시간에도 “서버 과부하” 오류를 최소화하는 데 도움이 됩니다.

자세한 정보는 Priority Tier 시작하기를 참조하세요.

요청이 티어에 할당되는 방법

요청을 처리할 때 Anthropic은 다음 시나리오에서 요청을 Priority Tier에 할당하기로 결정합니다:

  • 조직에 충분한 Priority Tier 용량 입력 토큰/분이 있는 경우
  • 조직에 충분한 Priority Tier 용량 출력 토큰/분이 있는 경우

Anthropic은 다음과 같이 Priority Tier 용량에 대한 사용량을 계산합니다:

입력 토큰

  • 캐시 읽기는 캐시에서 읽은 토큰당 0.1 토큰
  • 5분 TTL로 캐시에 쓴 토큰당 1.25 토큰으로 캐시 쓰기
  • 1시간 TTL로 캐시에 쓴 토큰당 2.00 토큰으로 캐시 쓰기
  • 기타 모든 입력 토큰은 토큰당 1 토큰

출력 토큰

  • 토큰당 1 토큰

그렇지 않으면 요청은 Standard Tier에서 진행됩니다.

Priority Tier에 할당된 요청은 Priority Tier 용량과 일반 속도 제한 모두에서 차감됩니다. 요청을 처리하는 것이 속도 제한을 초과하는 경우 요청이 거부됩니다.

서비스 티어 사용

service_tier 매개변수를 설정하여 요청에 사용할 수 있는 서비스 티어를 제어할 수 있습니다:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # 사용 가능할 때 자동으로 Priority Tier 사용, 표준으로 폴백
)

service_tier 매개변수는 다음 값을 허용합니다:

  • "auto" (기본값) - 사용 가능한 경우 Priority Tier 용량을 사용하고, 그렇지 않으면 다른 용량으로 폴백
  • "standard_only" - Priority Tier 용량을 사용하지 않으려는 경우 유용한 Standard Tier 용량만 사용

응답 usage 객체에는 요청에 할당된 서비스 티어도 포함됩니다:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

이를 통해 요청에 할당된 서비스 티어를 확인할 수 있습니다.

Priority Tier 약정이 있는 모델로 service_tier="auto"를 요청할 때 다음 응답 헤더가 인사이트를 제공합니다:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

이러한 헤더의 존재를 사용하여 제한을 초과했더라도 요청이 Priority Tier에 적격인지 감지할 수 있습니다.

Priority Tier 시작하기

다음에 관심이 있다면 Priority Tier 용량에 약정하는 것을 고려할 수 있습니다:

  • 더 높은 가용성: 우선순위가 부여된 계산 리소스로 99.5% 가동 시간 목표
  • 비용 제어: 예측 가능한 지출과 장기 약정에 대한 할인
  • 유연한 오버플로우: 약정된 용량을 초과할 때 자동으로 Standard Tier로 폴백

Priority Tier에 약정하려면 다음을 결정해야 합니다:

  • 분당 입력 토큰 수
  • 분당 출력 토큰 수
  • 약정 기간 (1, 3, 6, 또는 12개월)
  • 특정 모델 버전

구매하는 입력 대 출력 토큰의 비율이 중요합니다. 실제 트래픽 패턴에 맞게 Priority Tier 용량을 조정하면 구매한 토큰의 활용도를 극대화하는 데 도움이 됩니다.

지원되는 모델

Priority Tier는 다음에서 지원됩니다:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (두 버전 모두)
  • Claude Haiku 3.5

모델에 대한 자세한 내용은 모델 개요 페이지를 확인하세요.

Priority Tier 액세스 방법

Priority Tier 사용을 시작하려면:

  1. 영업팀에 문의하여 프로비저닝을 완료하세요
  2. (선택사항) API 요청을 업데이트하여 선택적으로 service_tier 매개변수를 auto로 설정하세요
  3. 응답 헤더와 Anthropic Console을 통해 사용량을 모니터링하세요