Kami memiliki dua jenis batasan:

  1. Batas pengeluaran menetapkan biaya bulanan maksimum yang dapat dikeluarkan organisasi untuk penggunaan API.
  2. Batas tarif menetapkan jumlah maksimum permintaan API yang dapat dibuat organisasi dalam periode waktu yang ditentukan.

Kami menerapkan batasan yang dikonfigurasi layanan di tingkat organisasi, tetapi Anda juga dapat menetapkan batasan yang dapat dikonfigurasi pengguna untuk ruang kerja organisasi Anda.

Batasan ini berlaku untuk penggunaan Standard dan Priority Tier. Untuk informasi lebih lanjut tentang Priority Tier, yang menawarkan tingkat layanan yang ditingkatkan sebagai imbalan atas komitmen pengeluaran, lihat Tingkatan Layanan.

Tentang batasan kami

  • Batasan dirancang untuk mencegah penyalahgunaan API, sambil meminimalkan dampak pada pola penggunaan pelanggan yang umum.
  • Batasan didefinisikan berdasarkan tingkatan penggunaan, di mana setiap tingkatan dikaitkan dengan set batasan pengeluaran dan tarif yang berbeda.
  • Organisasi Anda akan meningkat tingkatan secara otomatis saat Anda mencapai ambang batas tertentu saat menggunakan API. Batasan ditetapkan di tingkat organisasi. Anda dapat melihat batasan organisasi Anda di halaman Batasan di Konsol Anthropic.
  • Anda mungkin mencapai batas tarif dalam interval waktu yang lebih pendek. Misalnya, tarif 60 permintaan per menit (RPM) dapat diterapkan sebagai 1 permintaan per detik. Ledakan singkat permintaan dalam volume tinggi dapat melampaui batas tarif dan menghasilkan kesalahan batas tarif.
  • Batasan yang diuraikan di bawah ini adalah batasan tingkatan standar kami. Jika Anda mencari batasan yang lebih tinggi, kustom atau Priority Tier untuk tingkat layanan yang ditingkatkan, hubungi penjualan melalui Konsol Anthropic.
  • Kami menggunakan algoritma token bucket untuk melakukan pembatasan tarif. Ini berarti bahwa kapasitas Anda terus diisi ulang hingga batas maksimum Anda, daripada direset pada interval tetap.
  • Semua batasan yang dijelaskan di sini mewakili penggunaan maksimum yang diizinkan, bukan minimum yang dijamin. Batasan ini dimaksudkan untuk mengurangi pengeluaran berlebihan yang tidak disengaja dan memastikan distribusi sumber daya yang adil di antara pengguna.

Batas pengeluaran

Setiap tingkatan penggunaan memiliki batasan berapa banyak yang dapat Anda belanjakan untuk API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tingkatan Anda, sampai Anda memenuhi syarat untuk tingkatan berikutnya, Anda harus menunggu hingga bulan berikutnya untuk dapat menggunakan API lagi.

Untuk memenuhi syarat untuk tingkatan berikutnya, Anda harus memenuhi persyaratan deposit. Untuk meminimalkan risiko pendanaan berlebihan akun Anda, Anda tidak dapat menyetor lebih dari batas pengeluaran bulanan Anda.

Persyaratan untuk naik tingkatan

Tingkatan PenggunaanPembelian KreditPenggunaan Maks per Bulan
Tingkatan 1$5$100
Tingkatan 2$40$500
Tingkatan 3$200$1,000
Tingkatan 4$400$5,000
Penagihan BulananT/AT/A

Batas tarif

Batas tarif kami untuk Messages API diukur dalam permintaan per menit (RPM), token input per menit (ITPM), dan token output per menit (OTPM) untuk setiap kelas model. Jika Anda melebihi salah satu batas tarif, Anda akan mendapat kesalahan 429 yang menjelaskan batas tarif mana yang terlampaui, bersama dengan header retry-after yang menunjukkan berapa lama harus menunggu.

Batas tarif ITPM diperkirakan pada awal setiap permintaan, dan perkiraan disesuaikan selama permintaan untuk mencerminkan jumlah token input yang sebenarnya digunakan. Penyesuaian akhir menghitung input_tokens dan cache_creation_input_tokens terhadap batas tarif ITPM, sementara cache_read_input_tokens tidak (meskipun masih ditagih). Dalam beberapa kasus, cache_read_input_tokens dihitung terhadap batas tarif ITPM.

Batas tarif OTPM diperkirakan berdasarkan max_tokens pada awal setiap permintaan, dan perkiraan disesuaikan pada akhir permintaan untuk mencerminkan jumlah token output yang sebenarnya digunakan. Jika Anda mencapai batas OTPM lebih awal dari yang diharapkan, coba kurangi max_tokens untuk lebih mendekati ukuran penyelesaian Anda.

Batas tarif diterapkan secara terpisah untuk setiap model; oleh karena itu Anda dapat menggunakan model yang berbeda hingga batas masing-masing secara bersamaan. Anda dapat memeriksa batas tarif dan perilaku saat ini di Konsol Anthropic.

Untuk permintaan konteks panjang (>200K token) saat menggunakan header beta context-1m-2025-08-07 dengan Claude Sonnet 4, batas tarif terpisah berlaku. Lihat Batas tarif konteks panjang di bawah.

ModelPermintaan maksimum per menit (RPM)Token input maksimum per menit (ITPM)Token output maksimum per menit (OTPM)
Claude Opus 4.x*5030,0008,000
Claude Sonnet 45030,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22
5040,0008,000
Claude Sonnet 3.5
2024-06-20
5040,0008,000
Claude Haiku 3.55050,00010,000
Claude Opus 35020,0004,000
Claude Sonnet 35040,0008,000
Claude Haiku 35050,00010,000

* - Batas tarif Opus 4.x adalah batas total yang berlaku untuk lalu lintas gabungan di Opus 4.0 dan Opus 4.1.

† - Batas menghitung cache_read_input_tokens terhadap penggunaan ITPM.

Message Batches API

Message Batches API memiliki set batas tarif sendiri yang dibagi di semua model. Ini termasuk batas permintaan per menit (RPM) untuk semua endpoint API dan batas pada jumlah permintaan batch yang dapat berada dalam antrian pemrosesan pada saat yang sama. “Permintaan batch” di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, yang masing-masing dihitung terhadap batas ini. Permintaan batch dianggap sebagai bagian dari antrian pemrosesan ketika belum berhasil diproses oleh model.

Permintaan maksimum per menit (RPM)Permintaan batch maksimum dalam antrian pemrosesanPermintaan batch maksimum per batch
50100,000100,000

Batas tarif konteks panjang

Saat menggunakan Claude Sonnet 4 dengan jendela konteks 1M token diaktifkan, batas tarif khusus berikut berlaku untuk permintaan yang melebihi 200K token.

Jendela konteks 1M token saat ini dalam beta untuk organisasi di tingkatan penggunaan 4 dan organisasi dengan batas tarif kustom. Jendela konteks 1M token hanya tersedia untuk Claude Sonnet 4.

Token input maksimum per menit (ITPM)Token output maksimum per menit (OTPM)
500,000100,000

Untuk mengakses jendela konteks 1M token penuh dengan batas tarif 500K ITPM, Anda dapat menggunakan prompt caching.

Menetapkan batasan yang lebih rendah untuk Ruang Kerja

Untuk melindungi Ruang Kerja dalam Organisasi Anda dari potensi penggunaan berlebihan, Anda dapat menetapkan batasan pengeluaran dan tarif kustom per Ruang Kerja.

Contoh: Jika batas Organisasi Anda adalah 40,000 token input per menit dan 8,000 token output per menit, Anda mungkin membatasi satu Ruang Kerja hingga 30,000 total token per menit. Ini melindungi Ruang Kerja lain dari potensi penggunaan berlebihan dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Token per menit yang tersisa yang tidak digunakan (atau lebih, jika Ruang Kerja tersebut tidak menggunakan batas) kemudian tersedia untuk Ruang Kerja lain untuk digunakan.

Catatan:

  • Anda tidak dapat menetapkan batasan pada Ruang Kerja default.
  • Jika tidak ditetapkan, batasan Ruang Kerja sesuai dengan batas Organisasi.
  • Batasan tingkat Organisasi selalu berlaku, bahkan jika batasan Ruang Kerja bertambah hingga lebih.
  • Dukungan untuk batasan token input dan output akan ditambahkan ke Ruang Kerja di masa mendatang.

Header respons

Respons API menyertakan header yang menunjukkan batas tarif yang diterapkan, penggunaan saat ini, dan kapan batas akan direset.

Header berikut dikembalikan:

HeaderDeskripsi
retry-afterJumlah detik untuk menunggu sampai Anda dapat mencoba lagi permintaan. Percobaan ulang lebih awal akan gagal.
anthropic-ratelimit-requests-limitJumlah maksimum permintaan yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-requests-remainingJumlah permintaan yang tersisa sebelum dibatasi tarif.
anthropic-ratelimit-requests-resetWaktu ketika batas tarif permintaan akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
anthropic-ratelimit-tokens-limitJumlah maksimum token yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-tokens-remainingJumlah token yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif.
anthropic-ratelimit-tokens-resetWaktu ketika batas tarif token akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
anthropic-ratelimit-input-tokens-limitJumlah maksimum token input yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-input-tokens-remainingJumlah token input yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif.
anthropic-ratelimit-input-tokens-resetWaktu ketika batas tarif token input akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
anthropic-ratelimit-output-tokens-limitJumlah maksimum token output yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-output-tokens-remainingJumlah token output yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif.
anthropic-ratelimit-output-tokens-resetWaktu ketika batas tarif token output akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
anthropic-priority-input-tokens-limitJumlah maksimum token input Priority Tier yang diizinkan dalam periode batas tarif apa pun. (Hanya Priority Tier)
anthropic-priority-input-tokens-remainingJumlah token input Priority Tier yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif. (Hanya Priority Tier)
anthropic-priority-input-tokens-resetWaktu ketika batas tarif token input Priority Tier akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. (Hanya Priority Tier)
anthropic-priority-output-tokens-limitJumlah maksimum token output Priority Tier yang diizinkan dalam periode batas tarif apa pun. (Hanya Priority Tier)
anthropic-priority-output-tokens-remainingJumlah token output Priority Tier yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif. (Hanya Priority Tier)
anthropic-priority-output-tokens-resetWaktu ketika batas tarif token output Priority Tier akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. (Hanya Priority Tier)

Header anthropic-ratelimit-tokens-* menampilkan nilai untuk batas paling ketat yang saat ini berlaku. Misalnya, jika Anda telah melebihi batas token per menit Ruang Kerja, header akan berisi nilai batas tarif token per menit Ruang Kerja. Jika batasan Ruang Kerja tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token input dan output. Pendekatan ini memastikan bahwa Anda memiliki visibilitas ke dalam kendala yang paling relevan pada penggunaan API Anda saat ini.