서비스 등급
다양한 서비스 등급을 통해 애플리케이션 요구사항에 따라 가용성, 성능 및 예측 가능한 비용의 균형을 맞출 수 있습니다.
저희는 세 가지 서비스 등급을 제공합니다:
- 우선 등급: 시간, 가용성 및 예측 가능한 가격이 중요한 프로덕션 환경에 배포된 워크플로우에 적합
- 표준: 급증하는 트래픽이나 새로운 아이디어를 시도할 때 적합
- 배치: 대기할 수 있거나 일반 용량 외부에서 이점을 얻을 수 있는 비동기 워크플로우에 적합
표준 등급
표준 등급은 모든 API 요청의 기본 서비스 등급입니다. 이 등급의 요청은 다른 모든 요청과 함께 우선 순위가 지정되며 최선의 가용성을 제공합니다.
우선 등급
이 등급의 요청은 Anthropic에 대한 다른 모든 요청보다 우선시됩니다. 이러한 우선 순위 지정을 통해 피크 시간대에도 “서버 과부하” 오류가 드물게 발생한다는 보장을 제공할 수 있습니다.
자세한 정보는 우선 등급 시작하기를 참조하세요.
요청이 등급에 할당되는 방법
요청을 처리할 때, Anthropic은 다음과 같은 시나리오에서 요청을 우선 등급에 할당합니다:
- 귀하의 조직이 충분한 우선 등급 용량 입력 토큰(분당)을 보유한 경우
- 귀하의 조직이 충분한 우선 등급 용량 출력 토큰(분당)을 보유한 경우
Anthropic은 다음과 같이 우선 등급 용량에 대한 사용량을 계산합니다:
입력 토큰
- 캐시 읽기는 캐시에서 읽은 토큰당 0.1 토큰으로 계산
- 5분 TTL로 캐시에 쓰는 경우 쓰여진 토큰당 1.25 토큰으로 계산
- 1시간 TTL로 캐시에 쓰는 경우 쓰여진 토큰당 2.00 토큰으로 계산
- 다른 모든 입력 토큰은 토큰당 1 토큰으로 계산
출력 토큰
- 토큰당 1 토큰으로 계산
그 외의 경우, 요청은 표준 등급으로 처리됩니다.
우선 등급에 할당된 요청은 우선 등급 용량과 일반 속도 제한 모두에서 차감됩니다. 요청을 처리하면 속도 제한을 초과하게 되는 경우, 요청은 거부됩니다.
서비스 등급 사용하기
service_tier
매개변수를 설정하여 요청에 사용할 수 있는 서비스 등급을 제어할 수 있습니다:
service_tier
매개변수는 다음 값을 허용합니다:
"auto"
(기본값) - 가능한 경우 우선 등급 용량을 사용하고, 그렇지 않은 경우 다른 용량으로 대체"standard_only"
- 우선 등급 용량을 사용하지 않으려는 경우 표준 등급 용량만 사용
응답 usage
객체에는 요청에 할당된 서비스 등급도 포함됩니다:
이를 통해 요청에 어떤 서비스 등급이 할당되었는지 확인할 수 있습니다.
우선 등급 약정이 있는 모델에 대해 service_tier="auto"
를 요청할 때, 다음 응답 헤더가 인사이트를 제공합니다:
우선 등급 시작하기
다음과 같은 경우 우선 등급 용량에 약정하는 것이 좋습니다:
- 높은 가용성: 우선적인 컴퓨팅 리소스와 함께 99.9% 가동 시간 SLA 제공
- 비용 관리: 예측 가능한 지출과 장기 약정에 대한 할인
- 유연한 오버플로우: 약정 용량을 초과할 경우 자동으로 표준 등급으로 대체
우선 등급에 약정하려면 다음 사항을 결정해야 합니다:
- 분당 입력 토큰 수
- 분당 출력 토큰 수
- 약정 기간(1, 3, 6 또는 12개월)
- 특정 모델 버전
구매하는 입력 대 출력 토큰의 비율이 중요합니다. 실제 트래픽 패턴에 맞게 우선 등급 용량을 조정하면 구매한 모든 토큰을 완전히 활용할 수 있습니다.
지원되는 모델
우선 등급은 다음 모델을 지원합니다:
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5 (두 버전 모두)
- Claude Haiku 3.5
모델에 대한 자세한 내용은 모델 개요 페이지를 확인하세요.
우선 등급 액세스 방법
우선 등급 사용을 시작하려면:
- Anthropic 콘솔을 통해 영업팀에 연락하여 프로비저닝을 완료하세요
- (선택 사항) API 요청을 업데이트하여
service_tier
매개변수를auto
로 설정하세요 - 응답 헤더와 Anthropic 콘솔을 통해 사용량을 모니터링하세요