Batas penggunaan
Untuk mengurangi penyalahgunaan dan mengelola kapasitas pada API kami, kami telah menerapkan batasan pada seberapa banyak organisasi dapat menggunakan API Claude.
Kami memiliki dua jenis batasan:
- Batas pengeluaran menetapkan biaya bulanan maksimum yang dapat dikeluarkan organisasi untuk penggunaan API.
- Batas penggunaan menetapkan jumlah maksimum permintaan API yang dapat dilakukan organisasi dalam periode waktu tertentu.
Kami menerapkan batasan yang dikonfigurasi layanan di tingkat organisasi, tetapi Anda juga dapat menetapkan batasan yang dapat dikonfigurasi pengguna untuk ruang kerja organisasi Anda.
Batasan ini berlaku untuk penggunaan Tingkat Standar dan Tingkat Prioritas. Untuk informasi lebih lanjut tentang Tingkat Prioritas, yang menawarkan tingkat layanan yang ditingkatkan dengan imbalan komitmen pengeluaran, lihat Tingkat Layanan.
Tentang batasan kami
- Batasan dirancang untuk mencegah penyalahgunaan API, sekaligus meminimalkan dampak pada pola penggunaan pelanggan yang umum.
- Batasan didefinisikan berdasarkan tingkat penggunaan, di mana setiap tingkat dikaitkan dengan serangkaian batas pengeluaran dan penggunaan yang berbeda.
- Organisasi Anda akan meningkat tingkatnya secara otomatis saat Anda mencapai ambang batas tertentu saat menggunakan API. Batasan ditetapkan di tingkat organisasi. Anda dapat melihat batasan organisasi Anda di halaman Batasan di Konsol Anthropic.
- Anda mungkin mencapai batas penggunaan dalam interval waktu yang lebih singkat. Misalnya, tingkat 60 permintaan per menit (RPM) dapat diterapkan sebagai 1 permintaan per detik. Lonjakan permintaan dalam volume tinggi dalam waktu singkat dapat melampaui batas penggunaan dan mengakibatkan kesalahan batas penggunaan.
- Batasan yang diuraikan di bawah ini adalah batasan tingkat standar kami. Jika Anda mencari batasan kustom yang lebih tinggi atau Tingkat Prioritas untuk tingkat layanan yang ditingkatkan, hubungi bagian penjualan melalui Konsol Anthropic.
- Kami menggunakan algoritma token bucket untuk melakukan pembatasan penggunaan. Ini berarti kapasitas Anda terus diisi ulang hingga batas maksimum Anda, daripada diatur ulang pada interval tetap.
- Semua batasan yang dijelaskan di sini mewakili penggunaan maksimum yang diizinkan, bukan minimum yang dijamin. Batasan ini dimaksudkan untuk mengurangi pengeluaran berlebih yang tidak disengaja dan memastikan distribusi sumber daya yang adil di antara pengguna.
Batas pengeluaran
Setiap tingkat penggunaan memiliki batas berapa banyak yang dapat Anda belanjakan untuk API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tingkat Anda, sampai Anda memenuhi syarat untuk tingkat berikutnya, Anda harus menunggu hingga bulan berikutnya untuk dapat menggunakan API lagi.
Untuk memenuhi syarat tingkat berikutnya, Anda harus memenuhi persyaratan deposit. Untuk meminimalkan risiko kelebihan dana pada akun Anda, Anda tidak dapat menyetor lebih dari batas pengeluaran bulanan Anda.
Persyaratan untuk naik tingkat
Tingkat Penggunaan | Pembelian Kredit | Penggunaan Maks per Bulan |
---|---|---|
Tingkat 1 | $5 | $100 |
Tingkat 2 | $40 | $500 |
Tingkat 3 | $200 | $1,000 |
Tingkat 4 | $400 | $5,000 |
Penagihan Bulanan | N/A | N/A |
Batas penggunaan
Batas penggunaan kami untuk API Messages diukur dalam permintaan per menit (RPM), token input per menit (ITPM), dan token output per menit (OTPM) untuk setiap kelas model.
Jika Anda melebihi salah satu batas penggunaan, Anda akan mendapatkan kesalahan 429 yang menjelaskan batas penggunaan mana yang terlampaui, bersama dengan header retry-after
yang menunjukkan berapa lama harus menunggu.
Batas ITPM diperkirakan pada awal setiap permintaan, dan perkiraan disesuaikan selama permintaan untuk mencerminkan jumlah token input yang sebenarnya digunakan.
Penyesuaian akhir menghitung input_tokens
dan cache_creation_input_tokens
terhadap batas ITPM, sementara cache_read_input_tokens
tidak (meskipun tetap ditagih).
Dalam beberapa kasus, cache_read_input_tokens
dihitung terhadap batas ITPM.
Batas OTPM diperkirakan berdasarkan max_tokens
pada awal setiap permintaan, dan perkiraan disesuaikan pada akhir permintaan untuk mencerminkan jumlah token output yang sebenarnya digunakan.
Jika Anda mencapai batas OTPM lebih cepat dari yang diharapkan, coba kurangi max_tokens
untuk lebih mendekati ukuran penyelesaian Anda.
Batas penggunaan diterapkan secara terpisah untuk setiap model; oleh karena itu Anda dapat menggunakan model yang berbeda hingga batas masing-masing secara bersamaan. Anda dapat memeriksa batas penggunaan dan perilaku Anda saat ini di Konsol Anthropic.
Model | Maksimum permintaan per menit (RPM) | Maksimum token input per menit (ITPM) | Maksimum token output per menit (OTPM) |
---|---|---|---|
Claude Opus 4 | 50 | 20.000 | 8.000 |
Claude Sonnet 4 | 50 | 20.000 | 8.000 |
Claude Sonnet 3.7 | 50 | 20.000 | 8.000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40.000* | 8.000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40.000* | 8.000 |
Claude Haiku 3.5 | 50 | 50.000* | 10.000 |
Claude Opus 3 | 50 | 20.000* | 4.000 |
Claude Sonnet 3 | 50 | 40.000* | 8.000 |
Claude Haiku 3 | 50 | 50.000* | 10.000 |
Batas yang ditandai dengan tanda bintang (*) menghitung cache_read_input_tokens
terhadap penggunaan ITPM.
Model | Maksimum permintaan per menit (RPM) | Maksimum token input per menit (ITPM) | Maksimum token output per menit (OTPM) |
---|---|---|---|
Claude Opus 4 | 50 | 20.000 | 8.000 |
Claude Sonnet 4 | 50 | 20.000 | 8.000 |
Claude Sonnet 3.7 | 50 | 20.000 | 8.000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40.000* | 8.000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40.000* | 8.000 |
Claude Haiku 3.5 | 50 | 50.000* | 10.000 |
Claude Opus 3 | 50 | 20.000* | 4.000 |
Claude Sonnet 3 | 50 | 40.000* | 8.000 |
Claude Haiku 3 | 50 | 50.000* | 10.000 |
Batas yang ditandai dengan tanda bintang (*) menghitung cache_read_input_tokens
terhadap penggunaan ITPM.
Model | Maksimum permintaan per menit (RPM) | Maksimum token input per menit (ITPM) | Maksimum token output per menit (OTPM) |
---|---|---|---|
Claude Opus 4 | 1.000 | 40.000 | 16.000 |
Claude Sonnet 4 | 1.000 | 40.000 | 16.000 |
Claude Sonnet 3.7 | 1.000 | 40.000 | 16.000 |
Claude Sonnet 3.5 2024-10-22 | 1.000 | 80.000* | 16.000 |
Claude Sonnet 3.5 2024-06-20 | 1.000 | 80.000* | 16.000 |
Claude Haiku 3.5 | 1.000 | 100.000* | 20.000 |
Claude Opus 3 | 1.000 | 40.000* | 8.000 |
Claude Sonnet 3 | 1.000 | 80.000* | 16.000 |
Claude Haiku 3 | 1.000 | 100.000* | 20.000 |
Batas yang ditandai dengan tanda bintang (*) menghitung cache_read_input_tokens
terhadap penggunaan ITPM.
Model | Maksimum permintaan per menit (RPM) | Maksimum token input per menit (ITPM) | Maksimum token output per menit (OTPM) |
---|---|---|---|
Claude Opus 4 | 2.000 | 80.000 | 32.000 |
Claude Sonnet 4 | 2.000 | 80.000 | 32.000 |
Claude Sonnet 3.7 | 2.000 | 80.000 | 32.000 |
Claude Sonnet 3.5 2024-10-22 | 2.000 | 160.000* | 32.000 |
Claude Sonnet 3.5 2024-06-20 | 2.000 | 160.000* | 32.000 |
Claude Haiku 3.5 | 2.000 | 200.000* | 40.000 |
Claude Opus 3 | 2.000 | 80.000* | 16.000 |
Claude Sonnet 3 | 2.000 | 160.000* | 32.000 |
Claude Haiku 3 | 2.000 | 200.000* | 40.000 |
Batas yang ditandai dengan tanda bintang (*) menghitung cache_read_input_tokens
terhadap penggunaan ITPM.
Model | Maksimum permintaan per menit (RPM) | Maksimum token input per menit (ITPM) | Maksimum token output per menit (OTPM) |
---|---|---|---|
Claude Opus 4 | 4.000 | 200.000 | 80.000 |
Claude Sonnet 4 | 4.000 | 200.000 | 80.000 |
Claude Sonnet 3.7 | 4.000 | 200.000 | 80.000 |
Claude Sonnet 3.5 2024-10-22 | 4.000 | 400.000* | 80.000 |
Claude Sonnet 3.5 2024-06-20 | 4.000 | 400.000* | 80.000 |
Claude Haiku 3.5 | 4.000 | 400.000* | 80.000 |
Claude Opus 3 | 4.000 | 400.000* | 80.000 |
Claude Sonnet 3 | 4.000 | 400.000* | 80.000 |
Claude Haiku 3 | 4.000 | 400.000* | 80.000 |
Batas yang ditandai dengan tanda bintang (*) menghitung cache_read_input_tokens
terhadap penggunaan ITPM.
Jika Anda mencari batasan yang lebih tinggi untuk kasus penggunaan Enterprise, hubungi bagian penjualan melalui Konsol Anthropic.
API Message Batches
API Message Batches memiliki serangkaian batas penggunaan sendiri yang dibagikan di semua model. Ini termasuk batas permintaan per menit (RPM) ke semua endpoint API dan batas jumlah permintaan batch yang dapat berada dalam antrian pemrosesan pada saat yang sama. “Permintaan batch” di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, yang masing-masing dihitung terhadap batas ini. Permintaan batch dianggap sebagai bagian dari antrian pemrosesan ketika belum berhasil diproses oleh model.
Maksimum permintaan per menit (RPM) | Maksimum permintaan batch dalam antrian pemrosesan | Maksimum permintaan batch per batch |
---|---|---|
50 | 100.000 | 100.000 |
Maksimum permintaan per menit (RPM) | Maksimum permintaan batch dalam antrian pemrosesan | Maksimum permintaan batch per batch |
---|---|---|
50 | 100.000 | 100.000 |
Maksimum permintaan per menit (RPM) | Maksimum permintaan batch dalam antrian pemrosesan | Maksimum permintaan batch per batch |
---|---|---|
1.000 | 200.000 | 100.000 |
Maksimum permintaan per menit (RPM) | Maksimum permintaan batch dalam antrian pemrosesan | Maksimum permintaan batch per batch |
---|---|---|
2.000 | 300.000 | 100.000 |
Maksimum permintaan per menit (RPM) | Maksimum permintaan batch dalam antrian pemrosesan | Maksimum permintaan batch per batch |
---|---|---|
4.000 | 500.000 | 100.000 |
Jika Anda mencari batasan yang lebih tinggi untuk kasus penggunaan Enterprise, hubungi bagian penjualan melalui Konsol Anthropic.
Menetapkan batas yang lebih rendah untuk Ruang Kerja
Untuk melindungi Ruang Kerja di Organisasi Anda dari potensi penggunaan berlebihan, Anda dapat menetapkan batas pengeluaran dan penggunaan kustom per Ruang Kerja.
Contoh: Jika batas Organisasi Anda adalah 40.000 token input per menit dan 8.000 token output per menit, Anda mungkin membatasi satu Ruang Kerja hingga 30.000 total token per menit. Ini melindungi Ruang Kerja lain dari potensi penggunaan berlebihan dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Sisa token per menit yang tidak digunakan (atau lebih, jika Ruang Kerja tersebut tidak menggunakan batasnya) kemudian tersedia untuk digunakan oleh Ruang Kerja lain.
Catatan:
- Anda tidak dapat menetapkan batas pada Ruang Kerja default.
- Jika tidak ditetapkan, batas Ruang Kerja sama dengan batas Organisasi.
- Batas seluruh Organisasi selalu berlaku, bahkan jika batas Ruang Kerja berjumlah lebih banyak.
- Dukungan untuk batas token input dan output akan ditambahkan ke Ruang Kerja di masa mendatang.
Header respons
Respons API menyertakan header yang menunjukkan batas penggunaan yang diterapkan, penggunaan saat ini, dan kapan batas akan diatur ulang.
Header berikut dikembalikan:
Header | Deskripsi |
---|---|
retry-after | Jumlah detik untuk menunggu sampai Anda dapat mencoba lagi permintaan tersebut. Percobaan ulang lebih awal akan gagal. |
anthropic-ratelimit-requests-limit | Jumlah maksimum permintaan yang diizinkan dalam periode batas penggunaan apa pun. |
anthropic-ratelimit-requests-remaining | Jumlah permintaan yang tersisa sebelum dibatasi penggunaannya. |
anthropic-ratelimit-requests-reset | Waktu ketika batas penggunaan permintaan akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. |
anthropic-ratelimit-tokens-limit | Jumlah maksimum token yang diizinkan dalam periode batas penggunaan apa pun. |
anthropic-ratelimit-tokens-remaining | Jumlah token yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi penggunaannya. |
anthropic-ratelimit-tokens-reset | Waktu ketika batas penggunaan token akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Jumlah maksimum token input yang diizinkan dalam periode batas penggunaan apa pun. |
anthropic-ratelimit-input-tokens-remaining | Jumlah token input yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi penggunaannya. |
anthropic-ratelimit-input-tokens-reset | Waktu ketika batas penggunaan token input akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Jumlah maksimum token output yang diizinkan dalam periode batas penggunaan apa pun. |
anthropic-ratelimit-output-tokens-remaining | Jumlah token output yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi penggunaannya. |
anthropic-ratelimit-output-tokens-reset | Waktu ketika batas penggunaan token output akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. |
anthropic-priority-input-tokens-limit | Jumlah maksimum token input Tingkat Prioritas yang diizinkan dalam periode batas penggunaan apa pun. (Hanya Tingkat Prioritas) |
anthropic-priority-input-tokens-remaining | Jumlah token input Tingkat Prioritas yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi penggunaannya. (Hanya Tingkat Prioritas) |
anthropic-priority-input-tokens-reset | Waktu ketika batas penggunaan token input Tingkat Prioritas akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. (Hanya Tingkat Prioritas) |
anthropic-priority-output-tokens-limit | Jumlah maksimum token output Tingkat Prioritas yang diizinkan dalam periode batas penggunaan apa pun. (Hanya Tingkat Prioritas) |
anthropic-priority-output-tokens-remaining | Jumlah token output Tingkat Prioritas yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi penggunaannya. (Hanya Tingkat Prioritas) |
anthropic-priority-output-tokens-reset | Waktu ketika batas penggunaan token output Tingkat Prioritas akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. (Hanya Tingkat Prioritas) |
Header anthropic-ratelimit-tokens-*
menampilkan nilai untuk batas yang paling ketat yang saat ini berlaku. Misalnya, jika Anda telah melebihi batas token per menit Ruang Kerja, header akan berisi nilai batas penggunaan token per menit Ruang Kerja. Jika batas Ruang Kerja tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token input dan output. Pendekatan ini memastikan bahwa Anda memiliki visibilitas ke batasan yang paling relevan pada penggunaan API Anda saat ini.