Kami memiliki dua jenis batasan:

  1. Batasan pengeluaran menetapkan biaya maksimum bulanan yang dapat dikeluarkan organisasi untuk penggunaan API.
  2. Batasan laju menetapkan jumlah maksimum permintaan API yang dapat dilakukan organisasi dalam periode waktu tertentu.

Kami menerapkan batasan yang dikonfigurasi layanan di tingkat organisasi, tetapi Anda juga dapat mengatur batasan yang dapat dikonfigurasi pengguna untuk ruang kerja organisasi Anda.

Tentang batasan kami

  • Batasan dirancang untuk mencegah penyalahgunaan API, sambil meminimalkan dampak pada pola penggunaan pelanggan yang umum.
  • Batasan ditentukan berdasarkan tingkat penggunaan, di mana setiap tingkat terkait dengan serangkaian batasan pengeluaran dan laju yang berbeda.
  • Organisasi Anda akan meningkat tingkatnya secara otomatis saat Anda mencapai ambang batas tertentu saat menggunakan API. Batasan ditetapkan di tingkat organisasi. Anda dapat melihat batasan organisasi Anda di halaman Batasan di Anthropic Console.
  • Anda mungkin mencapai batasan laju dalam interval waktu yang lebih pendek. Misalnya, laju 60 permintaan per menit (RPM) dapat diterapkan sebagai 1 permintaan per detik. Lonjakan permintaan dengan volume tinggi dalam waktu singkat dapat melampaui batasan laju dan mengakibatkan kesalahan batasan laju.
  • Batasan yang diuraikan di bawah ini adalah batasan standar kami. Jika Anda mencari batasan khusus yang lebih tinggi, hubungi bagian penjualan melalui Anthropic Console.
  • Kami menggunakan algoritma token bucket untuk melakukan pembatasan laju. Ini berarti kapasitas Anda terus diisi ulang hingga batas maksimum Anda, daripada diatur ulang pada interval tetap.
  • Semua batasan yang dijelaskan di sini mewakili penggunaan maksimum yang diizinkan, bukan minimum yang dijamin. Batasan ini dirancang untuk mencegah penggunaan berlebihan dan memastikan distribusi sumber daya yang adil di antara pengguna.

Batasan pengeluaran

Setiap tingkat penggunaan memiliki batasan berapa banyak yang dapat Anda belanjakan untuk API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tingkat Anda, sampai Anda memenuhi syarat untuk tingkat berikutnya, Anda harus menunggu hingga bulan berikutnya untuk dapat menggunakan API lagi.

Untuk memenuhi syarat tingkat berikutnya, Anda harus memenuhi persyaratan deposit dan periode tunggu wajib. Tingkat yang lebih tinggi memerlukan periode tunggu yang lebih lama. Perhatikan, untuk meminimalkan risiko kelebihan dana pada akun Anda, Anda tidak dapat menyetor lebih dari batas pengeluaran bulanan Anda.

Persyaratan untuk naik tingkat

Tingkat PenggunaanPembelian KreditTunggu Setelah Pembelian PertamaPenggunaan Maks per Bulan
Tingkat 1$50 hari$100
Tingkat 2$407 hari$500
Tingkat 3$2007 hari$1,000
Tingkat 4$40014 hari$5,000
Penagihan BulananN/AN/AN/A

Batasan laju

Batasan laju kami untuk API Messages diukur dalam permintaan per menit (RPM), token masukan per menit (ITPM), dan token keluaran per menit (OTPM) untuk setiap kelas model. Jika Anda melebihi salah satu batasan laju, Anda akan mendapatkan kesalahan 429 yang menjelaskan batasan laju mana yang dilampaui, bersama dengan header retry-after yang menunjukkan berapa lama harus menunggu.

Batasan laju ITPM diperkirakan pada awal setiap permintaan, dan perkiraan disesuaikan selama permintaan untuk mencerminkan jumlah sebenarnya token masukan yang digunakan. Penyesuaian akhir menghitung input_tokens dan cache_creation_input_tokens terhadap batasan laju ITPM, sementara cache_read_input_tokens tidak (meskipun masih ditagih). Dalam beberapa kasus, cache_read_input_tokens dihitung terhadap batasan laju ITPM.

Batasan laju OTPM diperkirakan berdasarkan max_tokens pada awal setiap permintaan, dan perkiraan disesuaikan pada akhir permintaan untuk mencerminkan jumlah sebenarnya token keluaran yang digunakan. Jika Anda mencapai batasan OTPM lebih cepat dari yang diharapkan, coba kurangi max_tokens untuk lebih mendekati ukuran penyelesaian Anda.

Batasan laju diterapkan secara terpisah untuk setiap model; oleh karena itu Anda dapat menggunakan model yang berbeda hingga batas masing-masing secara bersamaan. Anda dapat memeriksa batasan laju dan perilaku saat ini di Anthropic Console.

ModelMaksimum permintaan per menit (RPM)Maksimum token masukan per menit (ITPM)Maksimum token keluaran per menit (OTPM)
Claude 3.7 Sonnet5020,0008,000
Claude 3.5 Sonnet
2024-10-22
5040,000*8,000
Claude 3.5 Sonnet
2024-06-20
5040,000*8,000
Claude 3.5 Haiku5050,000*10,000
Claude 3 Opus5020,000*4,000
Claude 3 Sonnet5040,000*8,000
Claude 3 Haiku5050,000*10,000

Batasan yang ditandai dengan tanda bintang (*) menghitung cache_read_input_tokens terhadap penggunaan ITPM.

API Message Batches

API Message Batches memiliki serangkaian batasan laju sendiri yang dibagikan di semua model. Ini termasuk batasan permintaan per menit (RPM) ke semua endpoint API dan batasan jumlah permintaan batch yang dapat berada dalam antrian pemrosesan pada saat yang sama. “Permintaan batch” di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, yang masing-masing dihitung terhadap batasan ini. Permintaan batch dianggap sebagai bagian dari antrian pemrosesan ketika belum berhasil diproses oleh model.

Maksimum permintaan per menit (RPM)Maksimum permintaan batch dalam antrian pemrosesanMaksimum permintaan batch per batch
50100,000100,000

Mengatur batasan lebih rendah untuk Ruang Kerja

Untuk melindungi Ruang Kerja dalam Organisasi Anda dari potensi penggunaan berlebihan, Anda dapat mengatur batasan pengeluaran dan laju khusus per Ruang Kerja.

Contoh: Jika batas Organisasi Anda adalah 40.000 token masukan per menit dan 8.000 token keluaran per menit, Anda mungkin membatasi satu Ruang Kerja menjadi 30.000 total token per menit. Ini melindungi Ruang Kerja lain dari potensi penggunaan berlebihan dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Sisa token yang tidak terpakai per menit (atau lebih, jika Ruang Kerja tersebut tidak menggunakan batas) kemudian tersedia untuk digunakan oleh Ruang Kerja lain.

Catatan:

  • Anda tidak dapat mengatur batasan pada Ruang Kerja default.
  • Jika tidak diatur, batasan Ruang Kerja sama dengan batasan Organisasi.
  • Batasan seluruh Organisasi selalu berlaku, bahkan jika batasan Ruang Kerja berjumlah lebih banyak.
  • Dukungan untuk batasan token masukan dan keluaran akan ditambahkan ke Ruang Kerja di masa mendatang.

Header respons

Respons API menyertakan header yang menunjukkan batasan laju yang diterapkan, penggunaan saat ini, dan kapan batasan akan diatur ulang.

Header berikut dikembalikan:

HeaderDeskripsi
retry-afterJumlah detik untuk menunggu sampai Anda dapat mencoba permintaan lagi. Percobaan lebih awal akan gagal.
anthropic-ratelimit-requests-limitJumlah maksimum permintaan yang diizinkan dalam periode batasan laju apa pun.
anthropic-ratelimit-requests-remainingJumlah permintaan yang tersisa sebelum dibatasi laju.
anthropic-ratelimit-requests-resetWaktu ketika batasan laju permintaan akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
anthropic-ratelimit-tokens-limitJumlah maksimum token yang diizinkan dalam periode batasan laju apa pun.
anthropic-ratelimit-tokens-remainingJumlah token yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi laju.
anthropic-ratelimit-tokens-resetWaktu ketika batasan laju token akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
anthropic-ratelimit-input-tokens-limitJumlah maksimum token masukan yang diizinkan dalam periode batasan laju apa pun.
anthropic-ratelimit-input-tokens-remainingJumlah token masukan yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi laju.
anthropic-ratelimit-input-tokens-resetWaktu ketika batasan laju token masukan akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
anthropic-ratelimit-output-tokens-limitJumlah maksimum token keluaran yang diizinkan dalam periode batasan laju apa pun.
anthropic-ratelimit-output-tokens-remainingJumlah token keluaran yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi laju.
anthropic-ratelimit-output-tokens-resetWaktu ketika batasan laju token keluaran akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.

Header anthropic-ratelimit-tokens-* menampilkan nilai untuk batasan paling ketat yang saat ini berlaku. Misalnya, jika Anda telah melebihi batasan token per menit Ruang Kerja, header akan berisi nilai batasan laju token per menit Ruang Kerja. Jika batasan Ruang Kerja tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token masukan dan keluaran. Pendekatan ini memastikan bahwa Anda memiliki visibilitas ke batasan yang paling relevan pada penggunaan API Anda saat ini.

Was this page helpful?