Tingkatan layanan
Tingkatan layanan yang berbeda memungkinkan Anda menyeimbangkan ketersediaan, kinerja, dan biaya yang dapat diprediksi berdasarkan kebutuhan aplikasi Anda.
Kami menawarkan tiga tingkatan layanan:
- Tingkatan Prioritas: Terbaik untuk alur kerja yang diterapkan dalam produksi di mana waktu, ketersediaan, dan harga yang dapat diprediksi penting
- Standar: Terbaik untuk lalu lintas yang meledak, atau ketika Anda mencoba ide baru
- Batch: Terbaik untuk alur kerja asinkron yang dapat menunggu atau mendapat manfaat dari berada di luar kapasitas normal Anda
Tingkatan Standar
Tingkatan standar adalah tingkatan layanan default untuk semua permintaan API. Permintaan dalam tingkatan ini diprioritaskan bersama dengan semua permintaan lain dan mengamati ketersediaan upaya terbaik.
Tingkatan Prioritas
Permintaan dalam tingkatan ini diprioritaskan di atas semua permintaan lain ke Anthropic. Prioritas ini membantu meminimalkan kesalahan “server kelebihan beban”, bahkan selama waktu puncak.
Untuk informasi lebih lanjut, lihat Memulai dengan Tingkatan Prioritas
Bagaimana permintaan mendapat tingkatan yang ditetapkan
Saat menangani permintaan, Anthropic memutuskan untuk menetapkan permintaan ke Tingkatan Prioritas dalam skenario berikut:
- Organisasi Anda memiliki kapasitas tingkatan prioritas yang cukup untuk token input per menit
- Organisasi Anda memiliki kapasitas tingkatan prioritas yang cukup untuk token output per menit
Anthropic menghitung penggunaan terhadap kapasitas Tingkatan Prioritas sebagai berikut:
Token Input
- Pembacaan cache sebagai 0,1 token per token yang dibaca dari cache
- Penulisan cache sebagai 1,25 token per token yang ditulis ke cache dengan TTL 5 menit
- Penulisan cache sebagai 2,00 token per token yang ditulis ke cache dengan TTL 1 jam
- Semua token input lainnya adalah 1 token per token
Token Output
- 1 token per token
Jika tidak, permintaan dilanjutkan pada tingkatan standar.
Permintaan yang ditetapkan Tingkatan Prioritas menarik dari kapasitas Tingkatan Prioritas dan batas tingkat reguler. Jika melayani permintaan akan melebihi batas tingkat, permintaan ditolak.
Menggunakan tingkatan layanan
Anda dapat mengontrol tingkatan layanan mana yang dapat digunakan untuk permintaan dengan mengatur parameter service_tier
:
Parameter service_tier
menerima nilai-nilai berikut:
"auto"
(default) - Menggunakan kapasitas Tingkatan Prioritas jika tersedia, fallback ke kapasitas lain Anda jika tidak"standard_only"
- Hanya menggunakan kapasitas tingkatan standar, berguna jika Anda tidak ingin menggunakan kapasitas Tingkatan Prioritas Anda
Objek usage
respons juga mencakup tingkatan layanan yang ditetapkan untuk permintaan:
Ini memungkinkan Anda menentukan tingkatan layanan mana yang ditetapkan untuk permintaan.
Saat meminta service_tier="auto"
dengan model dengan komitmen Tingkatan Prioritas, header respons ini memberikan wawasan:
Anda dapat menggunakan keberadaan header ini untuk mendeteksi apakah permintaan Anda memenuhi syarat untuk Tingkatan Prioritas, bahkan jika melebihi batas.
Memulai dengan Tingkatan Prioritas
Anda mungkin ingin berkomitmen pada kapasitas Tingkatan Prioritas jika Anda tertarik pada:
- Ketersediaan yang Lebih Tinggi: Target uptime 99,5% dengan sumber daya komputasi yang diprioritaskan
- Kontrol Biaya: Pengeluaran yang dapat diprediksi dan diskon untuk komitmen yang lebih lama
- Overflow yang Fleksibel: Secara otomatis fallback ke tingkatan standar ketika Anda melebihi kapasitas yang berkomitmen
Berkomitmen pada Tingkatan Prioritas akan melibatkan keputusan:
- Jumlah token input per menit
- Jumlah token output per menit
- Durasi komitmen (1, 3, 6, atau 12 bulan)
- Versi model tertentu
Rasio token input terhadap output yang Anda beli penting. Mengukur kapasitas Tingkatan Prioritas Anda agar selaras dengan pola lalu lintas aktual Anda membantu Anda memaksimalkan pemanfaatan token yang dibeli.
Model yang didukung
Tingkatan Prioritas didukung oleh:
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5 (kedua versi)
- Claude Haiku 3.5
Periksa halaman ikhtisar model untuk detail lebih lanjut tentang model kami.
Cara mengakses Tingkatan Prioritas
Untuk mulai menggunakan Tingkatan Prioritas:
- Hubungi penjualan untuk menyelesaikan penyediaan
- (Opsional) Perbarui permintaan API Anda untuk secara opsional mengatur parameter
service_tier
keauto
- Pantau penggunaan Anda melalui header respons dan Konsol Anthropic