Kami memiliki dua jenis batas:
  1. Batas pengeluaran menetapkan biaya bulanan maksimum yang dapat dikeluarkan organisasi untuk penggunaan API.
  2. Batas tarif menetapkan jumlah maksimum permintaan API yang dapat dibuat organisasi dalam periode waktu yang ditentukan.
Kami menerapkan batas yang dikonfigurasi layanan di tingkat organisasi, tetapi Anda juga dapat menetapkan batas yang dapat dikonfigurasi pengguna untuk ruang kerja organisasi Anda. Batas ini berlaku untuk penggunaan Standard dan Priority Tier. Untuk informasi lebih lanjut tentang Priority Tier, yang menawarkan tingkat layanan yang ditingkatkan sebagai imbalan atas komitmen pengeluaran, lihat Service Tiers.

Tentang batas kami

  • Batas dirancang untuk mencegah penyalahgunaan API, sambil meminimalkan dampak pada pola penggunaan pelanggan yang umum.
  • Batas didefinisikan berdasarkan tingkat penggunaan, di mana setiap tingkat dikaitkan dengan serangkaian batas pengeluaran dan tarif yang berbeda.
  • Organisasi Anda akan meningkat tingkat secara otomatis saat Anda mencapai ambang batas tertentu saat menggunakan API. Batas ditetapkan di tingkat organisasi. Anda dapat melihat batas organisasi Anda di halaman Limits di Anthropic Console.
  • Anda mungkin mencapai batas tarif dalam interval waktu yang lebih pendek. Misalnya, tarif 60 permintaan per menit (RPM) dapat diterapkan sebagai 1 permintaan per detik. Ledakan singkat permintaan dalam volume tinggi dapat melampaui batas tarif dan menghasilkan kesalahan batas tarif.
  • Batas yang diuraikan di bawah ini adalah batas tingkat standar kami. Jika Anda mencari batas yang lebih tinggi, batas khusus, atau Priority Tier untuk tingkat layanan yang ditingkatkan, hubungi penjualan melalui Anthropic Console.
  • Kami menggunakan algoritma token bucket untuk melakukan pembatasan tarif. Ini berarti bahwa kapasitas Anda terus diisi ulang hingga batas maksimum Anda, bukan direset pada interval tetap.
  • Semua batas yang dijelaskan di sini mewakili penggunaan maksimum yang diizinkan, bukan minimum yang dijamin. Batas ini dimaksudkan untuk mengurangi pengeluaran berlebihan yang tidak disengaja dan memastikan distribusi sumber daya yang adil di antara pengguna.

Batas pengeluaran

Setiap tingkat penggunaan memiliki batas berapa banyak yang dapat Anda belanjakan untuk API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tingkat Anda, sampai Anda memenuhi syarat untuk tingkat berikutnya, Anda harus menunggu sampai bulan berikutnya untuk dapat menggunakan API lagi. Untuk memenuhi syarat untuk tingkat berikutnya, Anda harus memenuhi persyaratan deposit. Untuk meminimalkan risiko pendanaan berlebihan akun Anda, Anda tidak dapat menyetor lebih dari batas pengeluaran bulanan Anda.

Persyaratan untuk naik tingkat

Tingkat PenggunaanPembelian KreditPenggunaan Maks per Bulan
Tingkat 1$5$100
Tingkat 2$40$500
Tingkat 3$200$1,000
Tingkat 4$400$5,000
Penagihan BulananN/AN/A

Batas tarif

Batas tarif kami untuk Messages API diukur dalam permintaan per menit (RPM), token input per menit (ITPM), dan token output per menit (OTPM) untuk setiap kelas model. Jika Anda melebihi salah satu batas tarif, Anda akan mendapatkan kesalahan 429 yang menjelaskan batas tarif mana yang terlampaui, bersama dengan header retry-after yang menunjukkan berapa lama harus menunggu.
Anda mungkin juga mengalami kesalahan 429 karena batas akselerasi pada API jika organisasi Anda mengalami peningkatan tajam dalam penggunaan. Untuk menghindari mencapai batas akselerasi, tingkatkan lalu lintas Anda secara bertahap dan pertahankan pola penggunaan yang konsisten.
Batas tarif ITPM diperkirakan pada awal setiap permintaan, dan perkiraan disesuaikan selama permintaan untuk mencerminkan jumlah sebenarnya token input yang digunakan. Penyesuaian akhir menghitung input_tokens dan cache_creation_input_tokens terhadap batas tarif ITPM.
Untuk beberapa model, cache_read_input_tokens juga dihitung terhadap batas tarif ITPM. ITPM maksimum untuk model ini ditandai dengan † dalam tabel batas tarif di bawah ini.Untuk semua model lainnya, cache_read_input_tokens tidak dihitung terhadap batas tarif ITPM (meskipun masih ditagih).
Batas tarif OTPM diperkirakan berdasarkan max_tokens pada awal setiap permintaan, dan perkiraan disesuaikan pada akhir permintaan untuk mencerminkan jumlah sebenarnya token output yang digunakan. Jika Anda mencapai batas OTPM lebih awal dari yang diharapkan, coba kurangi max_tokens untuk lebih memperkirakan ukuran penyelesaian Anda. Batas tarif diterapkan secara terpisah untuk setiap model; oleh karena itu Anda dapat menggunakan model yang berbeda hingga batas masing-masing secara bersamaan. Anda dapat memeriksa batas tarif dan perilaku saat ini di Anthropic Console.
Untuk permintaan konteks panjang (>200K token) saat menggunakan header beta context-1m-2025-08-07 dengan Claude Sonnet 4, batas tarif terpisah berlaku. Lihat Batas tarif konteks panjang di bawah ini.
ModelPermintaan maksimum per menit (RPM)Token input maksimum per menit (ITPM)Token output maksimum per menit (OTPM)
Claude Opus 4.x*5030,0008,000
Claude Sonnet 45030,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22 (deprecated)
5040,0008,000
Claude Sonnet 3.5
2024-06-20 (deprecated)
5040,0008,000
Claude Haiku 3.55050,00010,000
Claude Opus 3 (deprecated)5020,0004,000
Claude Haiku 35050,00010,000
* - Batas tarif Opus 4.x adalah batas total yang berlaku untuk lalu lintas gabungan di Opus 4.0 dan Opus 4.1. † - Batas menghitung cache_read_input_tokens terhadap penggunaan ITPM.

Message Batches API

Message Batches API memiliki serangkaian batas tarif sendiri yang dibagikan di semua model. Ini termasuk batas permintaan per menit (RPM) ke semua endpoint API dan batas pada jumlah permintaan batch yang dapat berada dalam antrian pemrosesan pada saat yang sama. “Permintaan batch” di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, yang masing-masing dihitung terhadap batas ini. Permintaan batch dianggap sebagai bagian dari antrian pemrosesan ketika belum berhasil diproses oleh model.
Permintaan maksimum per menit (RPM)Permintaan batch maksimum dalam antrian pemrosesanPermintaan batch maksimum per batch
50100,000100,000

Batas tarif konteks panjang

Saat menggunakan Claude Sonnet 4 dengan jendela konteks 1M token diaktifkan, batas tarif khusus berikut berlaku untuk permintaan yang melebihi 200K token.
Jendela konteks 1M token saat ini dalam beta untuk organisasi di tingkat penggunaan 4 dan organisasi dengan batas tarif kustom. Jendela konteks 1M token hanya tersedia untuk Claude Sonnet 4.
Token input maksimum per menit (ITPM)Token output maksimum per menit (OTPM)
1,000,000200,000
Untuk mendapatkan hasil maksimal dari jendela konteks 1M token dengan batas tarif, gunakan prompt caching.

Memantau batas tarif Anda di Console

Anda dapat memantau penggunaan batas tarif Anda di halaman Usage dari Anthropic Console. Selain menyediakan grafik token dan permintaan, halaman Usage menyediakan dua grafik batas tarif terpisah. Gunakan grafik ini untuk melihat ruang gerak yang Anda miliki untuk berkembang, kapan Anda mungkin mencapai penggunaan puncak, lebih memahami batas tarif apa yang harus diminta, atau bagaimana Anda dapat meningkatkan tingkat caching Anda. Grafik memvisualisasikan sejumlah metrik untuk batas tarif tertentu (misalnya per model):
  • Grafik Rate Limit - Input Tokens mencakup:
    • Token input maksimum per jam per menit yang tidak di-cache
    • Batas tarif token input per menit Anda saat ini
    • Tingkat cache untuk token input Anda (yaitu persentase token input yang dibaca dari cache)
  • Grafik Rate Limit - Output Tokens mencakup:
    • Token output maksimum per jam per menit
    • Batas tarif token output per menit Anda saat ini

Menetapkan batas yang lebih rendah untuk Workspaces

Untuk melindungi Workspaces dalam Organisasi Anda dari potensi penggunaan berlebihan, Anda dapat menetapkan batas pengeluaran dan tarif kustom per Workspace. Contoh: Jika batas Organisasi Anda adalah 40,000 token input per menit dan 8,000 token output per menit, Anda mungkin membatasi satu Workspace hingga 30,000 total token per menit. Ini melindungi Workspaces lain dari potensi penggunaan berlebihan dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Token per menit yang tersisa yang tidak digunakan (atau lebih, jika Workspace tersebut tidak menggunakan batas) kemudian tersedia untuk digunakan Workspaces lain. Catatan:
  • Anda tidak dapat menetapkan batas pada Workspace default.
  • Jika tidak ditetapkan, batas Workspace sesuai dengan batas Organisasi.
  • Batas seluruh organisasi selalu berlaku, bahkan jika batas Workspace bertambah hingga lebih banyak.
  • Dukungan untuk batas token input dan output akan ditambahkan ke Workspaces di masa depan.

Header respons

Respons API mencakup header yang menunjukkan batas tarif yang diterapkan, penggunaan saat ini, dan kapan batas akan direset. Header berikut dikembalikan:
HeaderDeskripsi
retry-afterJumlah detik untuk menunggu sampai Anda dapat mencoba ulang permintaan. Percobaan ulang lebih awal akan gagal.
anthropic-ratelimit-requests-limitJumlah maksimum permintaan yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-requests-remainingJumlah permintaan yang tersisa sebelum dibatasi tarif.
anthropic-ratelimit-requests-resetWaktu ketika batas tarif permintaan akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339.
anthropic-ratelimit-tokens-limitJumlah maksimum token yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-tokens-remainingJumlah token yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif.
anthropic-ratelimit-tokens-resetWaktu ketika batas tarif token akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339.
anthropic-ratelimit-input-tokens-limitJumlah maksim token input yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-input-tokens-remainingJumlah token input yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif.
anthropic-ratelimit-input-tokens-resetWaktu ketika batas tarif token input akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339.
anthropic-ratelimit-output-tokens-limitJumlah maksimum token output yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-output-tokens-remainingJumlah token output yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif.
anthropic-ratelimit-output-tokens-resetWaktu ketika batas tarif token output akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339.
anthropic-priority-input-tokens-limitJumlah maksimum token input Priority Tier yang diizinkan dalam periode batas tarif apa pun. (Hanya Priority Tier)
anthropic-priority-input-tokens-remainingJumlah token input Priority Tier yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif. (Hanya Priority Tier)
anthropic-priority-input-tokens-resetWaktu ketika batas tarif token input Priority Tier akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339. (Hanya Priority Tier)
anthropic-priority-output-tokens-limitJumlah maksimum token output Priority Tier yang diizinkan dalam periode batas tarif apa pun. (Hanya Priority Tier)
anthropic-priority-output-tokens-remainingJumlah token output Priority Tier yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif. (Hanya Priority Tier)
anthropic-priority-output-tokens-resetWaktu ketika batas tarif token output Priority Tier akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339. (Hanya Priority Tier)
Header anthropic-ratelimit-tokens-* menampilkan nilai untuk batas paling ketat yang saat ini berlaku. Misalnya, jika Anda telah melebihi batas token per menit Workspace, header akan berisi nilai batas tarif token per menit Workspace. Jika batas Workspace tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token input dan output. Pendekatan ini memastikan bahwa Anda memiliki visibilitas ke dalam kendala yang paling relevan pada penggunaan API Anda saat ini.