Tingkatan layanan

Kami menawarkan tiga tingkatan layanan:

Tingkatan Prioritas: Terbaik untuk alur kerja yang diterapkan dalam produksi di mana waktu, ketersediaan, dan harga yang dapat diprediksi penting
Standar: Tingkatan default untuk piloting dan penskalaan kasus penggunaan sehari-hari
Batch: Terbaik untuk alur kerja asinkron yang dapat menunggu atau mendapat manfaat dari berada di luar kapasitas normal Anda

Tingkatan Standar

Tingkatan standar adalah tingkatan layanan default untuk semua permintaan API. Permintaan dalam tingkatan ini diprioritaskan bersama dengan semua permintaan lainnya dan mengamati ketersediaan upaya terbaik.

Tingkatan Prioritas

Permintaan dalam tingkatan ini diprioritaskan di atas semua permintaan lainnya ke Anthropic. Prioritas ini membantu meminimalkan kesalahan “server kelebihan beban”, bahkan selama waktu puncak.

Untuk informasi lebih lanjut, lihat Memulai dengan Tingkatan Prioritas

Bagaimana permintaan mendapat penugasan tingkatan

Saat menangani permintaan, Anthropic memutuskan untuk menugaskan permintaan ke Tingkatan Prioritas dalam skenario berikut:

Organisasi Anda memiliki kapasitas tingkatan prioritas yang cukup untuk token input per menit
Organisasi Anda memiliki kapasitas tingkatan prioritas yang cukup untuk token output per menit

Anthropic menghitung penggunaan terhadap kapasitas Tingkatan Prioritas sebagai berikut:

Token Input

Pembacaan cache sebagai 0,1 token per token yang dibaca dari cache
Penulisan cache sebagai 1,25 token per token yang ditulis ke cache dengan TTL 5 menit
Penulisan cache sebagai 2,00 token per token yang ditulis ke cache dengan TTL 1 jam
Semua token input lainnya adalah 1 token per token

Token Output

1 token per token

Jika tidak, permintaan dilanjutkan pada tingkatan standar.

Permintaan yang ditugaskan Tingkatan Prioritas menarik dari kapasitas Tingkatan Prioritas dan batas laju reguler. Jika melayani permintaan akan melebihi batas laju, permintaan ditolak.

Menggunakan tingkatan layanan

Anda dapat mengontrol tingkatan layanan mana yang dapat digunakan untuk permintaan dengan mengatur parameter service_tier:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Secara otomatis menggunakan Tingkatan Prioritas saat tersedia, fallback ke standar
)

Parameter service_tier menerima nilai-nilai berikut:

"auto" (default) - Menggunakan kapasitas Tingkatan Prioritas jika tersedia, fallback ke kapasitas lain Anda jika tidak
"standard_only" - Hanya menggunakan kapasitas tingkatan standar, berguna jika Anda tidak ingin menggunakan kapasitas Tingkatan Prioritas Anda

Objek usage respons juga mencakup tingkatan layanan yang ditugaskan ke permintaan:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Ini memungkinkan Anda menentukan tingkatan layanan mana yang ditugaskan ke permintaan.

Saat meminta service_tier="auto" dengan model dengan komitmen Tingkatan Prioritas, header respons ini memberikan wawasan:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Anda dapat menggunakan keberadaan header ini untuk mendeteksi apakah permintaan Anda memenuhi syarat untuk Tingkatan Prioritas, bahkan jika melebihi batas.

Memulai dengan Tingkatan Prioritas

Anda mungkin ingin berkomitmen pada kapasitas Tingkatan Prioritas jika Anda tertarik pada:

Ketersediaan yang Lebih Tinggi: Target uptime 99,5% dengan sumber daya komputasi yang diprioritaskan
Kontrol Biaya: Pengeluaran yang dapat diprediksi dan diskon untuk komitmen yang lebih lama
Overflow yang Fleksibel: Secara otomatis fallback ke tingkatan standar saat Anda melebihi kapasitas yang berkomitmen

Berkomitmen pada Tingkatan Prioritas akan melibatkan keputusan:

Jumlah token input per menit
Jumlah token output per menit
Durasi komitmen (1, 3, 6, atau 12 bulan)
Versi model tertentu

Rasio token input terhadap output yang Anda beli penting. Menyesuaikan kapasitas Tingkatan Prioritas Anda dengan pola lalu lintas aktual membantu Anda memaksimalkan pemanfaatan token yang dibeli.

Model yang didukung

Tingkatan Prioritas didukung oleh:

Claude Opus 4
Claude Sonnet 4
Claude Sonnet 3.7
Claude Sonnet 3.5 (kedua versi)
Claude Haiku 3.5

Periksa halaman ikhtisar model untuk detail lebih lanjut tentang model kami.

Cara mengakses Tingkatan Prioritas

Untuk mulai menggunakan Tingkatan Prioritas:

Hubungi penjualan untuk menyelesaikan penyediaan
(Opsional) Perbarui permintaan API Anda untuk secara opsional mengatur parameter service_tier ke auto
Pantau penggunaan Anda melalui header respons dan Konsol Anthropic

Menggunakan API

Referensi API

SDK

Contoh

API pihak ketiga

Menggunakan Admin API

Dukungan & konfigurasi

Tingkatan Standar

Tingkatan Prioritas

Bagaimana permintaan mendapat penugasan tingkatan

Menggunakan tingkatan layanan

Memulai dengan Tingkatan Prioritas

Model yang didukung

Cara mengakses Tingkatan Prioritas

Menggunakan API

Referensi API

SDK

Contoh

API pihak ketiga

Menggunakan Admin API

Dukungan & konfigurasi

​Tingkatan Standar

​Tingkatan Prioritas

​Bagaimana permintaan mendapat penugasan tingkatan

​Menggunakan tingkatan layanan

​Memulai dengan Tingkatan Prioritas

​Model yang didukung

​Cara mengakses Tingkatan Prioritas

Tingkatan Standar

Tingkatan Prioritas

Bagaimana permintaan mendapat penugasan tingkatan

Menggunakan tingkatan layanan

Memulai dengan Tingkatan Prioritas

Model yang didukung

Cara mengakses Tingkatan Prioritas