Kami memiliki dua jenis batas:

  1. Batas pengeluaran menetapkan biaya bulanan maksimum yang dapat dikeluarkan organisasi untuk penggunaan API.
  2. Batas tarif menetapkan jumlah maksimum permintaan API yang dapat dibuat organisasi dalam periode waktu yang ditentukan.

Kami menerapkan batas yang dikonfigurasi layanan di tingkat organisasi, tetapi Anda juga dapat menetapkan batas yang dapat dikonfigurasi pengguna untuk ruang kerja organisasi Anda.

Batas ini berlaku untuk penggunaan Standard dan Priority Tier. Untuk informasi lebih lanjut tentang Priority Tier, yang menawarkan tingkat layanan yang ditingkatkan sebagai imbalan atas komitmen pengeluaran, lihat Service Tiers.

Tentang batas kami

  • Batas dirancang untuk mencegah penyalahgunaan API, sambil meminimalkan dampak pada pola penggunaan pelanggan yang umum.
  • Batas didefinisikan berdasarkan tingkat penggunaan, di mana setiap tingkat dikaitkan dengan serangkaian batas pengeluaran dan tarif yang berbeda.
  • Organisasi Anda akan meningkat tingkat secara otomatis saat Anda mencapai ambang batas tertentu saat menggunakan API. Batas ditetapkan di tingkat organisasi. Anda dapat melihat batas organisasi Anda di halaman Limits di Anthropic Console.
  • Anda mungkin mencapai batas tarif dalam interval waktu yang lebih pendek. Misalnya, tarif 60 permintaan per menit (RPM) dapat diterapkan sebagai 1 permintaan per detik. Ledakan singkat permintaan dalam volume tinggi dapat melampaui batas tarif dan menghasilkan kesalahan batas tarif.
  • Batas yang diuraikan di bawah ini adalah batas tingkat standar kami. Jika Anda mencari batas yang lebih tinggi, batas khusus atau Priority Tier untuk tingkat layanan yang ditingkatkan, hubungi penjualan melalui Anthropic Console.
  • Kami menggunakan algoritma token bucket untuk melakukan pembatasan tarif. Ini berarti bahwa kapasitas Anda terus diisi ulang hingga batas maksimum Anda, daripada direset pada interval tetap.
  • Semua batas yang dijelaskan di sini mewakili penggunaan maksimum yang diizinkan, bukan minimum yang dijamin. Batas ini dimaksudkan untuk mengurangi pengeluaran berlebihan yang tidak disengaja dan memastikan distribusi sumber daya yang adil di antara pengguna.

Batas pengeluaran

Setiap tingkat penggunaan memiliki batas berapa banyak yang dapat Anda belanjakan untuk API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tingkat Anda, sampai Anda memenuhi syarat untuk tingkat berikutnya, Anda harus menunggu sampai bulan berikutnya untuk dapat menggunakan API lagi.

Untuk memenuhi syarat untuk tingkat berikutnya, Anda harus memenuhi persyaratan deposit. Untuk meminimalkan risiko pendanaan berlebihan akun Anda, Anda tidak dapat menyetor lebih dari batas pengeluaran bulanan Anda.

Persyaratan untuk naik tingkat

Tingkat PenggunaanPembelian KreditPenggunaan Maks per Bulan
Tingkat 1$5$100
Tingkat 2$40$500
Tingkat 3$200$1,000
Tingkat 4$400$5,000
Penagihan BulananN/AN/A

Batas tarif

Batas tarif kami untuk Messages API diukur dalam permintaan per menit (RPM), token input per menit (ITPM), dan token output per menit (OTPM) untuk setiap kelas model. Jika Anda melebihi salah satu batas tarif, Anda akan mendapatkan kesalahan 429 yang menjelaskan batas tarif mana yang terlampaui, bersama dengan header retry-after yang menunjukkan berapa lama harus menunggu.

Batas tarif ITPM diperkirakan pada awal setiap permintaan, dan perkiraan disesuaikan selama permintaan untuk mencerminkan jumlah token input yang sebenarnya digunakan. Penyesuaian akhir menghitung input_tokens dan cache_creation_input_tokens terhadap batas tarif ITPM, sementara cache_read_input_tokens tidak (meskipun masih ditagih). Dalam beberapa kasus, cache_read_input_tokens dihitung terhadap batas tarif ITPM.

Batas tarif OTPM diperkirakan berdasarkan max_tokens pada awal setiap permintaan, dan perkiraan disesuaikan pada akhir permintaan untuk mencerminkan jumlah token output yang sebenarnya digunakan. Jika Anda mencapai batas OTPM lebih awal dari yang diharapkan, coba kurangi max_tokens untuk lebih mendekati ukuran penyelesaian Anda.

Batas tarif diterapkan secara terpisah untuk setiap model; oleh karena itu Anda dapat menggunakan model yang berbeda hingga batas masing-masing secara bersamaan. Anda dapat memeriksa batas tarif dan perilaku saat ini di Anthropic Console.

ModelPermintaan maksimum per menit (RPM)Token input maksimum per menit (ITPM)Token output maksimum per menit (OTPM)
Claude Opus 45030,0008,000
Claude Sonnet 45030,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22
5040,000*8,000
Claude Sonnet 3.5
2024-06-20
5040,000*8,000
Claude Haiku 3.55050,000*10,000
Claude Opus 35020,000*4,000
Claude Sonnet 35040,000*8,000
Claude Haiku 35050,000*10,000

Batas yang ditandai dengan tanda bintang (*) menghitung cache_read_input_tokens terhadap penggunaan ITPM.

Message Batches API

Message Batches API memiliki serangkaian batas tarif sendiri yang dibagikan di semua model. Ini termasuk batas permintaan per menit (RPM) untuk semua endpoint API dan batas pada jumlah permintaan batch yang dapat berada dalam antrian pemrosesan pada saat yang sama. “Permintaan batch” di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, yang masing-masing dihitung terhadap batas ini. Permintaan batch dianggap sebagai bagian dari antrian pemrosesan ketika belum berhasil diproses oleh model.

Permintaan maksimum per menit (RPM)Permintaan batch maksimum dalam antrian pemrosesanPermintaan batch maksimum per batch
50100,000100,000

Menetapkan batas yang lebih rendah untuk Workspaces

Untuk melindungi Workspaces dalam Organisasi Anda dari potensi penggunaan berlebihan, Anda dapat menetapkan batas pengeluaran dan tarif khusus per Workspace.

Contoh: Jika batas Organisasi Anda adalah 40,000 token input per menit dan 8,000 token output per menit, Anda mungkin membatasi satu Workspace hingga 30,000 total token per menit. Ini melindungi Workspaces lain dari potensi penggunaan berlebihan dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Token per menit yang tersisa yang tidak digunakan (atau lebih, jika Workspace tersebut tidak menggunakan batas) kemudian tersedia untuk digunakan Workspaces lain.

Catatan:

  • Anda tidak dapat menetapkan batas pada Workspace default.
  • Jika tidak ditetapkan, batas Workspace sesuai dengan batas Organisasi.
  • Batas seluruh Organisasi selalu berlaku, bahkan jika batas Workspace bertambah hingga lebih banyak.
  • Dukungan untuk batas token input dan output akan ditambahkan ke Workspaces di masa depan.

Header respons

Respons API menyertakan header yang menunjukkan batas tarif yang diterapkan, penggunaan saat ini, dan kapan batas akan direset.

Header berikut dikembalikan:

HeaderDeskripsi
retry-afterJumlah detik untuk menunggu sampai Anda dapat mencoba ulang permintaan. Percobaan ulang yang lebih awal akan gagal.
anthropic-ratelimit-requests-limitJumlah maksimum permintaan yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-requests-remainingJumlah permintaan yang tersisa sebelum dibatasi tarif.
anthropic-ratelimit-requests-resetWaktu ketika batas tarif permintaan akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339.
anthropic-ratelimit-tokens-limitJumlah maksimum token yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-tokens-remainingJumlah token yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif.
anthropic-ratelimit-tokens-resetWaktu ketika batas tarif token akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339.
anthropic-ratelimit-input-tokens-limitJumlah maksimum token input yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-input-tokens-remainingJumlah token input yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif.
anthropic-ratelimit-input-tokens-resetWaktu ketika batas tarif token input akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339.
anthropic-ratelimit-output-tokens-limitJumlah maksimum token output yang diizinkan dalam periode batas tarif apa pun.
anthropic-ratelimit-output-tokens-remainingJumlah token output yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif.
anthropic-ratelimit-output-tokens-resetWaktu ketika batas tarif token output akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339.
anthropic-priority-input-tokens-limitJumlah maksimum token input Priority Tier yang diizinkan dalam periode batas tarif apa pun. (Hanya Priority Tier)
anthropic-priority-input-tokens-remainingJumlah token input Priority Tier yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif. (Hanya Priority Tier)
anthropic-priority-input-tokens-resetWaktu ketika batas tarif token input Priority Tier akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339. (Hanya Priority Tier)
anthropic-priority-output-tokens-limitJumlah maksimum token output Priority Tier yang diizinkan dalam periode batas tarif apa pun. (Hanya Priority Tier)
anthropic-priority-output-tokens-remainingJumlah token output Priority Tier yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tarif. (Hanya Priority Tier)
anthropic-priority-output-tokens-resetWaktu ketika batas tarif token output Priority Tier akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339. (Hanya Priority Tier)

Header anthropic-ratelimit-tokens-* menampilkan nilai untuk batas paling ketat yang saat ini berlaku. Misalnya, jika Anda telah melebihi batas token per menit Workspace, header akan berisi nilai batas tarif token per menit Workspace. Jika batas Workspace tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token input dan output. Pendekatan ini memastikan bahwa Anda memiliki visibilitas ke dalam kendala yang paling relevan pada penggunaan API Anda saat ini.