Memahami jendela konteks

“Jendela konteks” mengacu pada keseluruhan jumlah teks yang dapat dilihat kembali dan dirujuk oleh model bahasa saat menghasilkan teks baru ditambah teks baru yang dihasilkannya. Ini berbeda dari korpus data besar yang digunakan untuk melatih model bahasa, dan sebaliknya mewakili “memori kerja” untuk model. Jendela konteks yang lebih besar memungkinkan model untuk memahami dan merespons prompt yang lebih kompleks dan panjang, sementara jendela konteks yang lebih kecil dapat membatasi kemampuan model untuk menangani prompt yang lebih panjang atau mempertahankan koherensi selama percakapan yang diperpanjang. Diagram di bawah ini mengilustrasikan perilaku jendela konteks standar untuk permintaan API1: Diagram jendela konteks 1Untuk antarmuka chat, seperti untuk claude.ai, jendela konteks juga dapat diatur pada sistem bergulir “masuk pertama, keluar pertama”.
  • Akumulasi token progresif: Saat percakapan berlanjut melalui giliran, setiap pesan pengguna dan respons asisten terakumulasi dalam jendela konteks. Giliran sebelumnya dipertahankan sepenuhnya.
  • Pola pertumbuhan linear: Penggunaan konteks tumbuh secara linear dengan setiap giliran, dengan giliran sebelumnya dipertahankan sepenuhnya.
  • Kapasitas 200K token: Total jendela konteks yang tersedia (200.000 token) mewakili kapasitas maksimum untuk menyimpan riwayat percakapan dan menghasilkan output baru dari Claude.
  • Alur input-output: Setiap giliran terdiri dari:
    • Fase input: Berisi semua riwayat percakapan sebelumnya ditambah pesan pengguna saat ini
    • Fase output: Menghasilkan respons teks yang menjadi bagian dari input masa depan

Jendela konteks dengan pemikiran yang diperluas

Saat menggunakan pemikiran yang diperluas, semua token input dan output, termasuk token yang digunakan untuk berpikir, dihitung terhadap batas jendela konteks, dengan beberapa nuansa dalam situasi multi-giliran. Token anggaran pemikiran adalah subset dari parameter max_tokens Anda, ditagih sebagai token output, dan dihitung terhadap batas tingkat. Namun, blok pemikiran sebelumnya secara otomatis dihapus dari perhitungan jendela konteks oleh API Anthropic dan bukan bagian dari riwayat percakapan yang “dilihat” model untuk giliran selanjutnya, mempertahankan kapasitas token untuk konten percakapan yang sebenarnya. Diagram di bawah ini mendemonstrasikan manajemen token khusus saat pemikiran yang diperluas diaktifkan: Diagram jendela konteks dengan pemikiran yang diperluas
  • Menghapus pemikiran yang diperluas: Blok pemikiran yang diperluas (ditampilkan dalam abu-abu gelap) dihasilkan selama fase output setiap giliran, tetapi tidak dibawa ke depan sebagai token input untuk giliran selanjutnya. Anda tidak perlu menghapus blok pemikiran sendiri. API Anthropic secara otomatis melakukan ini untuk Anda jika Anda mengirimkannya kembali.
  • Detail implementasi teknis:
    • API secara otomatis mengecualikan blok pemikiran dari giliran sebelumnya saat Anda mengirimkannya kembali sebagai bagian dari riwayat percakapan.
    • Token pemikiran yang diperluas ditagih sebagai token output hanya sekali, selama generasinya.
    • Perhitungan jendela konteks efektif menjadi: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
    • Token pemikiran mencakup blok thinking dan blok redacted_thinking.
Arsitektur ini efisien token dan memungkinkan penalaran ekstensif tanpa pemborosan token, karena blok pemikiran dapat memiliki panjang yang substansial.
Anda dapat membaca lebih lanjut tentang jendela konteks dan pemikiran yang diperluas dalam panduan pemikiran yang diperluas kami.

Jendela konteks dengan pemikiran yang diperluas dan penggunaan alat

Diagram di bawah ini mengilustrasikan manajemen token jendela konteks saat menggabungkan pemikiran yang diperluas dengan penggunaan alat: Diagram jendela konteks dengan pemikiran yang diperluas dan penggunaan alat
1

Arsitektur giliran pertama

  • Komponen input: Konfigurasi alat dan pesan pengguna
  • Komponen output: Pemikiran yang diperluas + respons teks + permintaan penggunaan alat
  • Perhitungan token: Semua komponen input dan output dihitung terhadap jendela konteks, dan semua komponen output ditagih sebagai token output.
2

Penanganan hasil alat (giliran 2)

  • Komponen input: Setiap blok dalam giliran pertama serta tool_result. Blok pemikiran yang diperluas harus dikembalikan dengan hasil alat yang sesuai. Ini adalah satu-satunya kasus di mana Anda harus mengembalikan blok pemikiran.
  • Komponen output: Setelah hasil alat telah dikirim kembali ke Claude, Claude akan merespons hanya dengan teks (tidak ada pemikiran yang diperluas tambahan sampai pesan user berikutnya).
  • Perhitungan token: Semua komponen input dan output dihitung terhadap jendela konteks, dan semua komponen output ditagih sebagai token output.
3

Langkah Ketiga

  • Komponen input: Semua input dan output dari giliran sebelumnya dibawa ke depan dengan pengecualian blok pemikiran, yang dapat dihapus sekarang setelah Claude menyelesaikan seluruh siklus penggunaan alat. API akan secara otomatis menghapus blok pemikiran untuk Anda jika Anda mengirimkannya kembali, atau Anda dapat dengan bebas menghapusnya sendiri pada tahap ini. Di sinilah Anda juga akan menambahkan giliran User berikutnya.
  • Komponen output: Karena ada giliran User baru di luar siklus penggunaan alat, Claude akan menghasilkan blok pemikiran yang diperluas baru dan melanjutkan dari sana.
  • Perhitungan token: Token pemikiran sebelumnya secara otomatis dihapus dari perhitungan jendela konteks. Semua blok sebelumnya lainnya masih dihitung sebagai bagian dari jendela token, dan blok pemikiran dalam giliran Assistant saat ini dihitung sebagai bagian dari jendela konteks.
  • Pertimbangan untuk penggunaan alat dengan pemikiran yang diperluas:
    • Saat memposting hasil alat, seluruh blok pemikiran yang tidak dimodifikasi yang menyertai permintaan alat spesifik tersebut (termasuk bagian tanda tangan/yang disunting) harus disertakan.
    • Perhitungan jendela konteks efektif untuk pemikiran yang diperluas dengan penggunaan alat menjadi: context_window = input_tokens + current_turn_tokens.
    • Sistem menggunakan tanda tangan kriptografis untuk memverifikasi keaslian blok pemikiran. Gagal mempertahankan blok pemikiran selama penggunaan alat dapat merusak kontinuitas penalaran Claude. Jadi, jika Anda memodifikasi blok pemikiran, API akan mengembalikan error.
Model Claude 4 mendukung pemikiran yang diselingi, yang memungkinkan Claude untuk berpikir di antara panggilan alat dan membuat penalaran yang lebih canggih setelah menerima hasil alat.Claude Sonnet 3.7 tidak mendukung pemikiran yang diselingi, jadi tidak ada penyisipan pemikiran yang diperluas dan panggilan alat tanpa giliran pengguna non-tool_result di antaranya.Untuk informasi lebih lanjut tentang menggunakan alat dengan pemikiran yang diperluas, lihat panduan pemikiran yang diperluas kami.

Jendela konteks 1M token

Claude Sonnet 4 mendukung jendela konteks 1 juta token. Jendela konteks yang diperluas ini memungkinkan Anda memproses dokumen yang jauh lebih besar, mempertahankan percakapan yang lebih panjang, dan bekerja dengan basis kode yang lebih ekstensif.
Jendela konteks 1M token saat ini dalam beta untuk organisasi di tingkat penggunaan 4 dan organisasi dengan batas tingkat kustom. Jendela konteks 1M token hanya tersedia untuk Claude Sonnet 4.
Untuk menggunakan jendela konteks 1M token, sertakan header beta context-1m-2025-08-07 dalam permintaan API Anda:
from anthropic import Anthropic

client = Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Process this large document..."}
    ],
    betas=["context-1m-2025-08-07"]
)
Pertimbangan penting:
  • Status beta: Ini adalah fitur beta yang dapat berubah. Fitur dan harga dapat dimodifikasi atau dihapus dalam rilis masa depan.
  • Persyaratan tingkat penggunaan: Jendela konteks 1M token tersedia untuk organisasi di tingkat penggunaan 4 dan organisasi dengan batas tingkat kustom. Organisasi tingkat yang lebih rendah harus maju ke tingkat penggunaan 4 untuk mengakses fitur ini.
  • Ketersediaan: Jendela konteks 1M token saat ini tersedia di API Anthropic, Amazon Bedrock, dan Vertex AI Google Cloud.
  • Harga: Permintaan yang melebihi 200K token secara otomatis dikenakan tarif premium (2x input, 1.5x output pricing). Lihat dokumentasi harga untuk detail.
  • Batas tingkat: Permintaan konteks panjang memiliki batas tingkat khusus. Lihat dokumentasi batas tingkat untuk detail.
  • Pertimbangan multimodal: Saat memproses sejumlah besar gambar atau pdf, perhatikan bahwa file dapat bervariasi dalam penggunaan token. Saat memasangkan prompt besar dengan sejumlah besar gambar, Anda mungkin mencapai batas ukuran permintaan.

Manajemen jendela konteks dengan model Claude yang lebih baru

Dalam model Claude yang lebih baru (dimulai dengan Claude Sonnet 3.7), jika jumlah token prompt dan token output melebihi jendela konteks model, sistem akan mengembalikan error validasi daripada secara diam-diam memotong konteks. Perubahan ini memberikan perilaku yang lebih dapat diprediksi tetapi memerlukan manajemen token yang lebih hati-hati. Untuk merencanakan penggunaan token Anda dan memastikan Anda tetap dalam batas jendela konteks, Anda dapat menggunakan API penghitungan token untuk memperkirakan berapa banyak token yang akan digunakan pesan Anda sebelum mengirimkannya ke Claude. Lihat tabel perbandingan model kami untuk daftar ukuran jendela konteks berdasarkan model.

Langkah selanjutnya