Batasan penggunaan
Untuk mengurangi penyalahgunaan dan mengelola kapasitas API kami, kami telah menerapkan batasan pada seberapa banyak sebuah organisasi dapat menggunakan API Claude.
Kami memiliki dua jenis batasan:
- Batasan pengeluaran menetapkan biaya maksimum bulanan yang dapat dikeluarkan organisasi untuk penggunaan API.
- Batasan laju menetapkan jumlah maksimum permintaan API yang dapat dilakukan organisasi dalam periode waktu tertentu.
Kami menerapkan batasan yang dikonfigurasi layanan di tingkat organisasi, tetapi Anda juga dapat mengatur batasan yang dapat dikonfigurasi pengguna untuk ruang kerja organisasi Anda.
Tentang batasan kami
- Batasan dirancang untuk mencegah penyalahgunaan API, sambil meminimalkan dampak pada pola penggunaan pelanggan yang umum.
- Batasan ditentukan berdasarkan tingkat penggunaan, di mana setiap tingkat terkait dengan serangkaian batasan pengeluaran dan laju yang berbeda.
- Organisasi Anda akan meningkat tingkatnya secara otomatis saat Anda mencapai ambang batas tertentu saat menggunakan API. Batasan ditetapkan di tingkat organisasi. Anda dapat melihat batasan organisasi Anda di halaman Batasan di Anthropic Console.
- Anda mungkin mencapai batasan laju dalam interval waktu yang lebih pendek. Misalnya, laju 60 permintaan per menit (RPM) dapat diterapkan sebagai 1 permintaan per detik. Lonjakan permintaan dengan volume tinggi dalam waktu singkat dapat melampaui batasan laju dan mengakibatkan kesalahan batasan laju.
- Batasan yang diuraikan di bawah ini adalah batasan standar kami. Jika Anda mencari batasan khusus yang lebih tinggi, hubungi bagian penjualan melalui Anthropic Console.
- Kami menggunakan algoritma token bucket untuk melakukan pembatasan laju. Ini berarti kapasitas Anda terus diisi ulang hingga batas maksimum Anda, daripada diatur ulang pada interval tetap.
- Semua batasan yang dijelaskan di sini mewakili penggunaan maksimum yang diizinkan, bukan minimum yang dijamin. Batasan ini dirancang untuk mencegah penggunaan berlebihan dan memastikan distribusi sumber daya yang adil di antara pengguna.
Batasan pengeluaran
Setiap tingkat penggunaan memiliki batasan berapa banyak yang dapat Anda belanjakan untuk API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tingkat Anda, sampai Anda memenuhi syarat untuk tingkat berikutnya, Anda harus menunggu hingga bulan berikutnya untuk dapat menggunakan API lagi.
Untuk memenuhi syarat tingkat berikutnya, Anda harus memenuhi persyaratan deposit dan periode tunggu wajib. Tingkat yang lebih tinggi memerlukan periode tunggu yang lebih lama. Perhatikan, untuk meminimalkan risiko kelebihan dana pada akun Anda, Anda tidak dapat menyetor lebih dari batas pengeluaran bulanan Anda.
Persyaratan untuk naik tingkat
Tingkat Penggunaan | Pembelian Kredit | Tunggu Setelah Pembelian Pertama | Penggunaan Maks per Bulan |
---|---|---|---|
Tingkat 1 | $5 | 0 hari | $100 |
Tingkat 2 | $40 | 7 hari | $500 |
Tingkat 3 | $200 | 7 hari | $1,000 |
Tingkat 4 | $400 | 14 hari | $5,000 |
Penagihan Bulanan | N/A | N/A | N/A |
Batasan laju
Batasan laju kami untuk API Messages diukur dalam permintaan per menit (RPM), token masukan per menit (ITPM), dan token keluaran per menit (OTPM) untuk setiap kelas model.
Jika Anda melebihi salah satu batasan laju, Anda akan mendapatkan kesalahan 429 yang menjelaskan batasan laju mana yang dilampaui, bersama dengan header retry-after
yang menunjukkan berapa lama harus menunggu.
Batasan laju ITPM diperkirakan pada awal setiap permintaan, dan perkiraan disesuaikan selama permintaan untuk mencerminkan jumlah sebenarnya token masukan yang digunakan.
Penyesuaian akhir menghitung input_tokens
dan cache_creation_input_tokens
terhadap batasan laju ITPM, sementara cache_read_input_tokens
tidak (meskipun masih ditagih).
Dalam beberapa kasus, cache_read_input_tokens
dihitung terhadap batasan laju ITPM.
Batasan laju OTPM diperkirakan berdasarkan max_tokens
pada awal setiap permintaan, dan perkiraan disesuaikan pada akhir permintaan untuk mencerminkan jumlah sebenarnya token keluaran yang digunakan.
Jika Anda mencapai batasan OTPM lebih cepat dari yang diharapkan, coba kurangi max_tokens
untuk lebih mendekati ukuran penyelesaian Anda.
Batasan laju diterapkan secara terpisah untuk setiap model; oleh karena itu Anda dapat menggunakan model yang berbeda hingga batas masing-masing secara bersamaan. Anda dapat memeriksa batasan laju dan perilaku saat ini di Anthropic Console.
Model | Maksimum permintaan per menit (RPM) | Maksimum token masukan per menit (ITPM) | Maksimum token keluaran per menit (OTPM) |
---|---|---|---|
Claude 3.7 Sonnet | 50 | 20,000 | 8,000 |
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000* | 8,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000* | 8,000 |
Claude 3.5 Haiku | 50 | 50,000* | 10,000 |
Claude 3 Opus | 50 | 20,000* | 4,000 |
Claude 3 Sonnet | 50 | 40,000* | 8,000 |
Claude 3 Haiku | 50 | 50,000* | 10,000 |
Batasan yang ditandai dengan tanda bintang (*) menghitung cache_read_input_tokens
terhadap penggunaan ITPM.
API Message Batches
API Message Batches memiliki serangkaian batasan laju sendiri yang dibagikan di semua model. Ini termasuk batasan permintaan per menit (RPM) ke semua endpoint API dan batasan jumlah permintaan batch yang dapat berada dalam antrian pemrosesan pada saat yang sama. “Permintaan batch” di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, yang masing-masing dihitung terhadap batasan ini. Permintaan batch dianggap sebagai bagian dari antrian pemrosesan ketika belum berhasil diproses oleh model.
Maksimum permintaan per menit (RPM) | Maksimum permintaan batch dalam antrian pemrosesan | Maksimum permintaan batch per batch |
---|---|---|
50 | 100,000 | 100,000 |
Mengatur batasan lebih rendah untuk Ruang Kerja
Untuk melindungi Ruang Kerja dalam Organisasi Anda dari potensi penggunaan berlebihan, Anda dapat mengatur batasan pengeluaran dan laju khusus per Ruang Kerja.
Contoh: Jika batas Organisasi Anda adalah 40.000 token masukan per menit dan 8.000 token keluaran per menit, Anda mungkin membatasi satu Ruang Kerja menjadi 30.000 total token per menit. Ini melindungi Ruang Kerja lain dari potensi penggunaan berlebihan dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Sisa token yang tidak terpakai per menit (atau lebih, jika Ruang Kerja tersebut tidak menggunakan batas) kemudian tersedia untuk digunakan oleh Ruang Kerja lain.
Catatan:
- Anda tidak dapat mengatur batasan pada Ruang Kerja default.
- Jika tidak diatur, batasan Ruang Kerja sama dengan batasan Organisasi.
- Batasan seluruh Organisasi selalu berlaku, bahkan jika batasan Ruang Kerja berjumlah lebih banyak.
- Dukungan untuk batasan token masukan dan keluaran akan ditambahkan ke Ruang Kerja di masa mendatang.
Header respons
Respons API menyertakan header yang menunjukkan batasan laju yang diterapkan, penggunaan saat ini, dan kapan batasan akan diatur ulang.
Header berikut dikembalikan:
Header | Deskripsi |
---|---|
retry-after | Jumlah detik untuk menunggu sampai Anda dapat mencoba permintaan lagi. Percobaan lebih awal akan gagal. |
anthropic-ratelimit-requests-limit | Jumlah maksimum permintaan yang diizinkan dalam periode batasan laju apa pun. |
anthropic-ratelimit-requests-remaining | Jumlah permintaan yang tersisa sebelum dibatasi laju. |
anthropic-ratelimit-requests-reset | Waktu ketika batasan laju permintaan akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. |
anthropic-ratelimit-tokens-limit | Jumlah maksimum token yang diizinkan dalam periode batasan laju apa pun. |
anthropic-ratelimit-tokens-remaining | Jumlah token yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi laju. |
anthropic-ratelimit-tokens-reset | Waktu ketika batasan laju token akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Jumlah maksimum token masukan yang diizinkan dalam periode batasan laju apa pun. |
anthropic-ratelimit-input-tokens-remaining | Jumlah token masukan yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi laju. |
anthropic-ratelimit-input-tokens-reset | Waktu ketika batasan laju token masukan akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Jumlah maksimum token keluaran yang diizinkan dalam periode batasan laju apa pun. |
anthropic-ratelimit-output-tokens-remaining | Jumlah token keluaran yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi laju. |
anthropic-ratelimit-output-tokens-reset | Waktu ketika batasan laju token keluaran akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. |
Header anthropic-ratelimit-tokens-*
menampilkan nilai untuk batasan paling ketat yang saat ini berlaku. Misalnya, jika Anda telah melebihi batasan token per menit Ruang Kerja, header akan berisi nilai batasan laju token per menit Ruang Kerja. Jika batasan Ruang Kerja tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token masukan dan keluaran. Pendekatan ini memastikan bahwa Anda memiliki visibilitas ke batasan yang paling relevan pada penggunaan API Anda saat ini.