Kami memiliki dua jenis batasan:

  1. Batas pengeluaran menetapkan biaya maksimum bulanan yang dapat dikeluarkan organisasi untuk penggunaan API.
  2. Batas tingkat menetapkan jumlah maksimum permintaan API yang dapat dilakukan organisasi dalam periode waktu tertentu.

Kami menerapkan batasan yang dikonfigurasi layanan di tingkat organisasi, tetapi Anda juga dapat mengatur batasan yang dapat dikonfigurasi pengguna untuk ruang kerja organisasi Anda.

Tentang batasan kami

  • Batasan dirancang untuk mencegah penyalahgunaan API, sambil meminimalkan dampak pada pola penggunaan pelanggan yang umum.
  • Batasan ditentukan berdasarkan tingkat penggunaan, di mana setiap tingkat terkait dengan serangkaian batas pengeluaran dan tingkat yang berbeda.
  • Organisasi Anda akan meningkat tingkatnya secara otomatis saat Anda mencapai ambang batas tertentu saat menggunakan API. Batasan ditetapkan di tingkat organisasi. Anda dapat melihat batasan organisasi Anda di halaman Batasan di Anthropic Console.
  • Anda mungkin mencapai batas tingkat dalam interval waktu yang lebih singkat. Misalnya, tingkat 60 permintaan per menit (RPM) dapat diberlakukan sebagai 1 permintaan per detik. Lonjakan permintaan dalam volume tinggi dalam waktu singkat dapat melampaui batas tingkat dan mengakibatkan kesalahan batas tingkat.
  • Batasan yang diuraikan di bawah ini adalah batasan standar kami. Jika Anda mencari batasan khusus yang lebih tinggi, hubungi bagian penjualan melalui Anthropic Console.
  • Kami menggunakan algoritma token bucket untuk melakukan pembatasan tingkat. Ini berarti kapasitas Anda terus diisi ulang hingga batas maksimum Anda, daripada diatur ulang pada interval tetap.
  • Semua batasan yang dijelaskan di sini mewakili penggunaan maksimum yang diizinkan, bukan minimum yang dijamin. Batasan ini dirancang untuk mencegah penggunaan berlebihan dan memastikan distribusi sumber daya yang adil di antara pengguna.

Batas pengeluaran

Setiap tingkat penggunaan memiliki batas berapa banyak yang dapat Anda belanjakan untuk API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tingkat Anda, sampai Anda memenuhi syarat untuk tingkat berikutnya, Anda harus menunggu hingga bulan berikutnya untuk dapat menggunakan API lagi.

Untuk memenuhi syarat tingkat berikutnya, Anda harus memenuhi persyaratan deposit dan periode tunggu wajib. Tingkat yang lebih tinggi memerlukan periode tunggu yang lebih lama. Perhatikan, untuk meminimalkan risiko kelebihan dana pada akun Anda, Anda tidak dapat menyetor lebih dari batas pengeluaran bulanan Anda.

Persyaratan untuk naik tingkat

Tingkat PenggunaanPembelian KreditTunggu Setelah Pembelian PertamaPenggunaan Maks per Bulan
Tingkat 1$50 hari$100
Tingkat 2$407 hari$500
Tingkat 3$2007 hari$1,000
Tingkat 4$40014 hari$5,000
Penagihan BulananN/AN/AN/A

Batas tingkat yang diperbarui

Batas tingkat kami untuk API Messages diukur dalam permintaan per menit (RPM), token masukan per menit (ITPM), dan token keluaran per menit (OTPM) untuk setiap kelas model. Jika Anda melebihi salah satu batas tingkat, Anda akan mendapatkan kesalahan 429.

Batas tingkat ITPM diperkirakan berdasarkan panjang prompt pada awal setiap permintaan, dan perkiraan disesuaikan pada akhir permintaan untuk mencerminkan jumlah token masukan yang sebenarnya digunakan. Perhatikan bahwa semua jenis token masukan (input_tokens, cache_creation_input_tokens, dan cache_read_input_tokens) dihitung terhadap batas tingkat ITPM secara sama, meskipun ditagih dengan tarif yang berbeda.

Batas tingkat OTPM diperkirakan berdasarkan max_tokens pada awal setiap permintaan, dan perkiraan disesuaikan pada akhir permintaan untuk mencerminkan jumlah token keluaran yang sebenarnya digunakan. Jika Anda mencapai batas OTPM lebih cepat dari yang diharapkan, coba kurangi max_tokens untuk lebih mendekati ukuran penyelesaian Anda.

Klik pada tingkat batas tingkat dalam tabel untuk melihat batas tingkat yang relevan. Batas tingkat dilacak per model; oleh karena itu, model dalam tingkat yang sama tidak berbagi batas tingkat.

ModelMaksimum permintaan per menit (RPM)Maksimum token masukan per menit (ITPM)Maksimum token keluaran per menit (OTPM)
Claude 3.5 Sonnet
2024-10-22
5040,0008,000
Claude 3.5 Sonnet
2024-06-20
5040,0008,000
Claude 3.5 Haiku5050,00010,000
Claude 3 Opus5020,0004,000
Claude 3 Sonnet5040,0008,000
Claude 3 Haiku5050,00010,000

API Message Batches

API Message Batches memiliki serangkaian batas tingkat sendiri yang dibagikan di semua model. Ini termasuk batas permintaan per menit (RPM) ke semua endpoint API dan batas jumlah permintaan batch yang dapat berada dalam antrian pemrosesan pada saat yang sama. “Permintaan batch” di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, yang masing-masing dihitung terhadap batas ini. Permintaan batch dianggap bagian dari antrian pemrosesan ketika belum berhasil diproses oleh model.

Maksimum permintaan per menit (RPM)Maksimum permintaan batch dalam antrian pemrosesanMaksimum permintaan batch per batch
50100,000100,000

Mengatur batasan lebih rendah untuk Ruang Kerja

Untuk melindungi Ruang Kerja dalam Organisasi Anda dari potensi penggunaan berlebihan, Anda dapat mengatur batas pengeluaran dan tingkat kustom per Ruang Kerja.

Contoh: Jika batas Organisasi Anda adalah 48.000 token per menit (40.000 token masukan dan 8.000 token keluaran), Anda mungkin membatasi satu Ruang Kerja hingga 30.000 total token per menit. Ini melindungi Ruang Kerja lain dari potensi penggunaan berlebihan dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Sisa token yang tidak terpakai per menit (atau lebih, jika Ruang Kerja tersebut tidak menggunakan batas) kemudian tersedia untuk digunakan oleh Ruang Kerja lain.

Catatan:

  • Anda tidak dapat mengatur batasan pada Ruang Kerja default.
  • Jika tidak diatur, batas Ruang Kerja sama dengan batas Organisasi.
  • Batas seluruh Organisasi selalu berlaku, bahkan jika batas Ruang Kerja berjumlah lebih banyak.
  • Dukungan untuk batas token masukan dan keluaran akan ditambahkan ke Ruang Kerja di masa mendatang.

Header respons

Respons API menyertakan header yang menunjukkan batas tingkat yang diberlakukan, penggunaan saat ini, dan kapan batas akan diatur ulang.

Header berikut dikembalikan:

HeaderDeskripsi
anthropic-ratelimit-requests-limitJumlah maksimum permintaan yang diizinkan dalam periode batas tingkat apa pun.
anthropic-ratelimit-requests-remainingJumlah permintaan yang ters

isa sebelum dibatasi tingkat. | | anthropic-ratelimit-requests-reset | Waktu ketika batas tingkat permintaan akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. | | anthropic-ratelimit-tokens-limit | Jumlah maksimum token yang diizinkan dalam periode batas tingkat apa pun. | | anthropic-ratelimit-tokens-remaining | Jumlah token yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tingkat. | | anthropic-ratelimit-tokens-reset | Waktu ketika batas tingkat token akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. | | anthropic-ratelimit-input-tokens-limit | Jumlah maksimum token masukan yang diizinkan dalam periode batas tingkat apa pun. | | anthropic-ratelimit-input-tokens-remaining | Jumlah token masukan yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tingkat. | | anthropic-ratelimit-input-tokens-reset | Waktu ketika batas tingkat token masukan akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. | | anthropic-ratelimit-output-tokens-limit | Jumlah maksimum token keluaran yang diizinkan dalam periode batas tingkat apa pun. | | anthropic-ratelimit-output-tokens-remaining | Jumlah token keluaran yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tingkat. | | anthropic-ratelimit-output-tokens-reset | Waktu ketika batas tingkat token keluaran akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. | | retry-after | Jumlah detik sampai Anda dapat mencoba permintaan lagi. |

Header anthropic-ratelimit-tokens-* menampilkan nilai untuk batas yang paling ketat yang saat ini berlaku. Misalnya, jika Anda telah melebihi batas token per menit Ruang Kerja, header akan berisi nilai batas tingkat token per menit Ruang Kerja. Jika batas Ruang Kerja tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token masukan dan keluaran. Pendekatan ini memastikan bahwa Anda memiliki visibilitas ke batasan yang paling relevan pada penggunaan API Anda saat ini.

Batas tingkat lama

Batas tingkat kami sebelumnya diukur dalam permintaan per menit, token per menit, dan token per hari untuk setiap kelas model. Jika Anda melebihi salah satu batas tingkat, Anda akan mendapatkan kesalahan 429. Klik pada tingkat batas tingkat untuk melihat batas tingkat yang relevan.

Batas tingkat dilacak per model, oleh karena itu model dalam tingkat yang sama tidak berbagi batas tingkat.

ModelMaksimum permintaan per menit (RPM)Maksimum token per menit (TPM)Maksimum token per hari (TPD)
Claude 3.5 Sonnet
2024-10-22
5040,0001,000,000
Claude 3.5 Sonnet
2024-06-20
5040,0001,000,000
Claude 3.5 Haiku5050,0005,000,000
Claude 3 Opus5020,0001,000,000
Claude 3 Sonnet5040,0001,000,000
Claude 3 Haiku5050,0005,000,000

Was this page helpful?