Kami menawarkan tiga tingkatan layanan:

  • Tingkat Prioritas: Terbaik untuk alur kerja yang digunakan dalam produksi di mana waktu, ketersediaan, dan harga yang dapat diprediksi adalah penting
  • Standar: Terbaik untuk lalu lintas yang bersifat lonjakan, atau ketika Anda mencoba ide baru
  • Batch: Terbaik untuk alur kerja asinkron yang dapat menunggu atau mendapat manfaat dari berada di luar kapasitas normal Anda

Tingkat Standar

Tingkat standar adalah tingkat layanan default untuk semua permintaan API. Permintaan di tingkat ini diprioritaskan bersama dengan semua permintaan lain dan mengamati ketersediaan dengan upaya terbaik.

Tingkat Prioritas

Permintaan di tingkat ini diprioritaskan di atas semua permintaan lain ke Anthropic. Prioritas ini memungkinkan kami memberikan jaminan tentang jarangnya kesalahan “server overloaded”, bahkan selama waktu puncak.

Untuk informasi lebih lanjut, lihat Memulai dengan Tingkat Prioritas

Bagaimana permintaan ditetapkan tingkatannya

Saat menangani permintaan, Anthropic memutuskan untuk menetapkan permintaan ke Tingkat Prioritas dalam skenario berikut:

  • Organisasi Anda memiliki kapasitas tingkat prioritas yang cukup untuk token input per menit
  • Organisasi Anda memiliki kapasitas tingkat prioritas yang cukup untuk token output per menit

Anthropic menghitung penggunaan terhadap kapasitas Tingkat Prioritas sebagai berikut:

Token Input

  • Pembacaan cache sebagai 0,1 token per token yang dibaca dari cache
  • Penulisan cache sebagai 1,25 token per token yang ditulis ke cache dengan TTL 5 menit
  • Penulisan cache sebagai 2,00 token per token yang ditulis ke cache dengan TTL 1 jam
  • Semua token input lainnya adalah 1 token per token

Token Output

  • 1 token per token

Jika tidak, permintaan dilanjutkan pada tingkat standar.

Permintaan yang ditetapkan ke Tingkat Prioritas mengambil dari kapasitas Tingkat Prioritas dan batas rate reguler. Jika melayani permintaan akan melebihi batas rate, permintaan ditolak.

Menggunakan tingkatan layanan

Anda dapat mengontrol tingkatan layanan mana yang dapat digunakan untuk permintaan dengan mengatur parameter service_tier:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Secara otomatis menggunakan Tingkat Prioritas jika tersedia, fallback ke standar
)

Parameter service_tier menerima nilai-nilai berikut:

  • "auto" (default) - Menggunakan kapasitas Tingkat Prioritas jika tersedia, beralih ke kapasitas lain Anda jika tidak
  • "standard_only" - Hanya menggunakan kapasitas tingkat standar, berguna jika Anda tidak ingin menggunakan kapasitas Tingkat Prioritas Anda

Objek usage respons juga menyertakan tingkat layanan yang ditetapkan untuk permintaan:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Ini memungkinkan Anda menentukan tingkat layanan mana yang ditetapkan untuk permintaan.

Saat meminta service_tier="auto" dengan model yang memiliki komitmen Tingkat Prioritas, header respons ini memberikan wawasan:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Memulai dengan Tingkat Prioritas

Anda mungkin ingin berkomitmen pada kapasitas Tingkat Prioritas jika Anda tertarik pada:

  • Ketersediaan lebih tinggi: SLA uptime 99,9% dengan sumber daya komputasi yang diprioritaskan
  • Kontrol Biaya: Pengeluaran yang dapat diprediksi dan diskon untuk komitmen yang lebih lama
  • Overflow yang fleksibel: Secara otomatis beralih ke tingkat standar ketika Anda melebihi kapasitas yang dikomitmenkan

Berkomitmen pada Tingkat Prioritas akan melibatkan keputusan:

  • Jumlah token input per menit
  • Jumlah token output per menit
  • Durasi komitmen (1, 3, 6, atau 12 bulan)
  • Versi model tertentu

Rasio token input terhadap output yang Anda beli penting. Menyesuaikan kapasitas Tingkat Prioritas Anda agar selaras dengan pola lalu lintas aktual membantu memastikan Anda memanfaatkan sepenuhnya semua token yang dibeli.

Model yang didukung

Tingkat Prioritas didukung oleh:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (kedua versi)
  • Claude Haiku 3.5

Periksa halaman ikhtisar model untuk detail lebih lanjut tentang model kami.

Cara mengakses Tingkat Prioritas

Untuk mulai menggunakan Tingkat Prioritas:

  1. Hubungi bagian penjualan melalui Anthropic Console untuk menyelesaikan penyediaan
  2. (Opsional) Perbarui permintaan API Anda untuk secara opsional mengatur parameter service_tier ke auto
  3. Pantau penggunaan Anda melalui header respons dan Anthropic Console