Jendela konteks
Memahami jendela konteks
“Jendela konteks” mengacu pada keseluruhan jumlah teks yang dapat dilihat kembali dan dirujuk oleh model bahasa ketika menghasilkan teks baru ditambah teks baru yang dihasilkannya. Ini berbeda dari kumpulan data besar yang digunakan untuk melatih model bahasa, dan sebaliknya mewakili “memori kerja” untuk model. Jendela konteks yang lebih besar memungkinkan model untuk memahami dan merespons prompt yang lebih kompleks dan panjang, sementara jendela konteks yang lebih kecil dapat membatasi kemampuan model untuk menangani prompt yang lebih panjang atau mempertahankan koherensi selama percakapan yang panjang.
Diagram di bawah ini mengilustrasikan perilaku jendela konteks standar untuk permintaan API1:
1Untuk antarmuka chat, seperti untuk claude.ai, jendela konteks juga dapat diatur pada sistem “first in, first out” yang bergulir.
- Akumulasi token progresif: Seiring percakapan berlanjut melalui giliran, setiap pesan pengguna dan respons asisten terakumulasi dalam jendela konteks. Giliran sebelumnya disimpan sepenuhnya.
- Pola pertumbuhan linear: Penggunaan konteks tumbuh secara linear dengan setiap giliran, dengan giliran sebelumnya disimpan sepenuhnya.
- Kapasitas 200K token: Total jendela konteks yang tersedia (200.000 token) mewakili kapasitas maksimum untuk menyimpan riwayat percakapan dan menghasilkan output baru dari Claude.
- Aliran input-output: Setiap giliran terdiri dari:
- Fase input: Berisi semua riwayat percakapan sebelumnya plus pesan pengguna saat ini
- Fase output: Menghasilkan respons teks yang menjadi bagian dari input di masa mendatang
Jendela konteks dengan pemikiran diperpanjang
Ketika menggunakan pemikiran diperpanjang, semua token input dan output, termasuk token yang digunakan untuk berpikir, dihitung terhadap batas jendela konteks, dengan beberapa nuansa dalam situasi multi-giliran.
Token anggaran pemikiran adalah subset dari parameter max_tokens
Anda, ditagih sebagai token output, dan dihitung terhadap batas laju.
Namun, blok pemikiran sebelumnya secara otomatis dihapus dari perhitungan jendela konteks oleh API Anthropic dan bukan bagian dari riwayat percakapan yang “dilihat” model untuk giliran berikutnya, mempertahankan kapasitas token untuk konten percakapan yang sebenarnya.
Diagram di bawah ini menunjukkan manajemen token khusus ketika pemikiran diperpanjang diaktifkan:
- Menghapus pemikiran diperpanjang: Blok pemikiran diperpanjang (ditunjukkan dalam warna abu-abu gelap) dihasilkan selama fase output setiap giliran, tetapi tidak dibawa ke depan sebagai token input untuk giliran berikutnya. Anda tidak perlu menghapus blok pemikiran sendiri. API Anthropic secara otomatis melakukan ini untuk Anda jika Anda mengembalikannya.
- Detail implementasi teknis:
- API secara otomatis mengecualikan blok pemikiran dari giliran sebelumnya ketika Anda mengembalikannya sebagai bagian dari riwayat percakapan.
- Token pemikiran diperpanjang hanya ditagih sebagai token output satu kali, selama pembuatannya.
- Perhitungan jendela konteks efektif menjadi:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens
. - Token pemikiran mencakup blok
thinking
dan blokredacted_thinking
.
Arsitektur ini efisien token dan memungkinkan penalaran ekstensif tanpa pemborosan token, karena blok pemikiran dapat sangat panjang.
Anda dapat membaca lebih lanjut tentang jendela konteks dan pemikiran diperpanjang dalam panduan pemikiran diperpanjang kami.
Jendela konteks dengan pemikiran diperpanjang dan penggunaan alat
Diagram di bawah ini mengilustrasikan manajemen token jendela konteks ketika menggabungkan pemikiran diperpanjang dengan penggunaan alat:
Arsitektur giliran pertama
- Komponen input: Konfigurasi alat dan pesan pengguna
- Komponen output: Pemikiran diperpanjang + respons teks + permintaan penggunaan alat
- Perhitungan token: Semua komponen input dan output dihitung terhadap jendela konteks, dan semua komponen output ditagih sebagai token output.
Penanganan hasil alat (giliran 2)
- Komponen input: Setiap blok dalam giliran pertama serta
tool_result
. Blok pemikiran diperpanjang harus dikembalikan dengan hasil alat yang sesuai. Ini adalah satu-satunya kasus di mana Anda harus mengembalikan blok pemikiran. - Komponen output: Setelah hasil alat telah dikembalikan ke Claude, Claude akan merespons hanya dengan teks (tidak ada pemikiran diperpanjang tambahan sampai pesan
user
berikutnya). - Perhitungan token: Semua komponen input dan output dihitung terhadap jendela konteks, dan semua komponen output ditagih sebagai token output.
Langkah Ketiga
- Komponen input: Semua input dan output dari giliran sebelumnya dibawa ke depan kecuali blok pemikiran, yang dapat dihapus sekarang setelah Claude menyelesaikan seluruh siklus penggunaan alat. API akan secara otomatis menghapus blok pemikiran untuk Anda jika Anda mengembalikannya, atau Anda bebas untuk menghapusnya sendiri pada tahap ini. Ini juga di mana Anda akan menambahkan giliran
User
berikutnya. - Komponen output: Karena ada giliran
User
baru di luar siklus penggunaan alat, Claude akan menghasilkan blok pemikiran diperpanjang baru dan melanjutkan dari sana. - Perhitungan token: Token pemikiran sebelumnya secara otomatis dihapus dari perhitungan jendela konteks. Semua blok sebelumnya lainnya masih dihitung sebagai bagian dari jendela token, dan blok pemikiran dalam giliran
Assistant
saat ini dihitung sebagai bagian dari jendela konteks.
- Pertimbangan untuk penggunaan alat dengan pemikiran diperpanjang:
- Saat memposting hasil alat, seluruh blok pemikiran yang tidak dimodifikasi yang menyertai permintaan alat spesifik tersebut (termasuk bagian tanda tangan/diredaksi) harus disertakan.
- Sistem menggunakan tanda tangan kriptografis untuk memverifikasi keaslian blok pemikiran. Gagal mempertahankan blok pemikiran selama penggunaan alat dapat merusak kontinuitas penalaran Claude. Dengan demikian, jika Anda memodifikasi blok pemikiran, API akan mengembalikan error.
Tidak ada penggabungan pemikiran diperpanjang dan panggilan alat - Anda tidak akan melihat pemikiran diperpanjang, kemudian panggilan alat, kemudian pemikiran diperpanjang lagi, tanpa giliran pengguna non-tool_result
di antaranya. Selain itu, penggunaan alat dalam blok pemikiran diperpanjang itu sendiri saat ini tidak didukung, meskipun Claude dapat bernalar tentang alat apa yang harus digunakan dan bagaimana memanggilnya dalam blok pemikiran.
Anda dapat membaca lebih lanjut tentang penggunaan alat dengan pemikiran diperpanjang dalam panduan pemikiran diperpanjang kami
Manajemen jendela konteks dengan model Claude yang lebih baru
Dalam model Claude yang lebih baru (mulai dengan Claude 3.7 Sonnet), jika jumlah token prompt dan token output melebihi jendela konteks model, sistem akan mengembalikan error validasi daripada memotong konteks secara diam-diam. Perubahan ini memberikan perilaku yang lebih dapat diprediksi tetapi memerlukan manajemen token yang lebih hati-hati.
Untuk merencanakan penggunaan token Anda dan memastikan Anda tetap dalam batas jendela konteks, Anda dapat menggunakan API penghitungan token untuk memperkirakan berapa banyak token yang akan digunakan pesan Anda sebelum mengirimkannya ke Claude.
Lihat tabel perbandingan model kami untuk daftar ukuran jendela konteks berdasarkan model.
Langkah selanjutnya
Tabel perbandingan model
Lihat tabel perbandingan model kami untuk daftar ukuran jendela konteks dan harga token input / output berdasarkan model.
Ikhtisar pemikiran diperpanjang
Pelajari lebih lanjut tentang bagaimana pemikiran diperpanjang bekerja dan cara mengimplementasikannya bersama fitur lain seperti penggunaan alat dan caching prompt.
Was this page helpful?