claude-opus-4-1-20250805
)claude-opus-4-20250514
)claude-sonnet-4-20250514
)claude-3-7-sonnet-20250219
)thinking
di mana ia mengeluarkan penalaran internalnya. Claude menggabungkan wawasan dari penalaran ini sebelum menyusun respons akhir.
Respons API akan mencakup blok konten thinking
, diikuti oleh blok konten text
.
Berikut adalah contoh format respons default:
thinking
, dengan parameter type
diatur ke enabled
dan budget_tokens
ke anggaran token yang ditentukan untuk extended thinking.
Parameter budget_tokens
menentukan jumlah maksimum token yang diizinkan Claude gunakan untuk proses penalaran internalnya. Dalam model Claude 4, batas ini berlaku untuk token thinking penuh, dan bukan untuk output yang dirangkum. Anggaran yang lebih besar dapat meningkatkan kualitas respons dengan memungkinkan analisis yang lebih menyeluruh untuk masalah kompleks, meskipun Claude mungkin tidak menggunakan seluruh anggaran yang dialokasikan, terutama pada rentang di atas 32k.
budget_tokens
harus diatur ke nilai yang kurang dari max_tokens
. Namun, ketika menggunakan interleaved thinking dengan tools, Anda dapat melebihi batas ini karena batas token menjadi seluruh context window Anda (200k token).
thinking_delta
.
Untuk dokumentasi lebih lanjut tentang streaming melalui Messages API, lihat Streaming Messages.
Berikut cara menangani streaming dengan thinking:
tool_choice: {"type": "auto"}
(default) atau tool_choice: {"type": "none"}
. Menggunakan tool_choice: {"type": "any"}
atau tool_choice: {"type": "tool", "name": "..."}
akan menghasilkan error karena opsi ini memaksa penggunaan tool, yang tidak kompatibel dengan extended thinking.
thinking
kembali ke API untuk pesan assistant terakhir. Sertakan blok lengkap yang tidak dimodifikasi kembali ke API untuk mempertahankan kontinuitas penalaran.
Contoh: Mengirimkan blok thinking dengan hasil tool
thinking
kembali ke API, dan Anda harus menyertakan blok lengkap yang tidak dimodifikasi kembali ke API. Ini penting untuk mempertahankan alur penalaran model dan integritas percakapan.
thinking
dari giliran assistant
sebelumnya, kami menyarankan untuk selalu mengirimkan kembali semua blok thinking ke API untuk percakapan multi-turn apa pun. API akan:thinking
, seluruh urutan blok thinking
berturut-turut harus cocok dengan output yang dihasilkan oleh model selama permintaan asli; Anda tidak dapat mengatur ulang atau memodifikasi urutan blok ini.
interleaved-thinking-2025-05-14
ke permintaan API Anda.
Berikut adalah beberapa pertimbangan penting untuk interleaved thinking:
budget_tokens
dapat melebihi parameter max_tokens
, karena ini mewakili total anggaran di semua blok thinking dalam satu giliran assistant.interleaved-thinking-2025-05-14
.interleaved-thinking-2025-05-14
dalam permintaan ke model apa pun, tanpa efek.interleaved-thinking-2025-05-14
ke model apa pun selain Claude Opus 4.1, Opus 4, atau Sonnet 4, permintaan Anda akan gagal.Tool use tanpa interleaved thinking
Tool use dengan interleaved thinking
cache_control
eksplisitSystem prompt caching (dipertahankan ketika thinking berubah)
Messages caching (dibatalkan ketika thinking berubah)
cache_creation_input_tokens=1370
dan cache_read_input_tokens=0
, membuktikan bahwa caching berbasis pesan dibatalkan ketika parameter thinking berubah.max_tokens
melebihi context window model, sistem akan secara otomatis menyesuaikan max_tokens
agar sesuai dengan batas konteks. Ini berarti Anda dapat mengatur nilai max_tokens
yang besar dan sistem akan secara diam-diam menguranginya sesuai kebutuhan.
Dengan model Claude 3.7 dan 4, max_tokens
(yang mencakup anggaran thinking Anda ketika thinking diaktifkan) diberlakukan sebagai batas yang ketat. Sistem sekarang akan mengembalikan error validasi jika token prompt + max_tokens
melebihi ukuran context window.
max_tokens
Anda untuk giliran tersebutmax_tokens
dengan model extended thinking Claude 3.7 dan 4, Anda mungkin perlu:
max_tokens
saat panjang prompt Anda berubahsignature
. Field ini digunakan untuk memverifikasi bahwa blok thinking dihasilkan oleh Claude ketika dikirimkan kembali ke API.
signature_delta
di dalam event content_block_delta
tepat sebelum event content_block_stop
.signature
secara signifikan lebih panjang dalam model Claude 4 daripada dalam model sebelumnya.signature
adalah field opaque dan tidak boleh diinterpretasikan atau di-parse - ia ada semata-mata untuk tujuan verifikasi.signature
kompatibel di seluruh platform (API Anthropic, Amazon Bedrock, dan Vertex AI). Nilai yang dihasilkan pada satu platform akan kompatibel dengan platform lain.thinking
dan mengembalikannya kepada Anda sebagai blok redacted_thinking
. Blok redacted_thinking
didekripsi ketika dikirimkan kembali ke API, memungkinkan Claude untuk melanjutkan responsnya tanpa kehilangan konteks.
Ketika membangun aplikasi yang menghadap pelanggan yang menggunakan extended thinking:
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
thinking
dan redacted_thinking
kembali ke API dalam percakapan multi-turn, Anda harus menyertakan blok lengkap yang tidak dimodifikasi kembali ke API untuk giliran assistant terakhir. Ini penting untuk mempertahankan alur penalaran model. Kami menyarankan untuk selalu mengirimkan kembali semua blok thinking ke API. Untuk detail lebih lanjut, lihat bagian Mempertahankan blok thinking di atas.
Contoh: Bekerja dengan blok redacted thinking
redacted_thinking
yang mungkin muncul dalam respons ketika penalaran internal Claude berisi konten yang ditandai oleh sistem keamanan:Fitur | Claude Sonnet 3.7 | Model Claude 4 |
---|---|---|
Output Thinking | Mengembalikan output thinking penuh | Mengembalikan thinking yang dirangkum |
Interleaved Thinking | Tidak didukung | Didukung dengan header beta interleaved-thinking-2025-05-14 |
Model | Token Input Dasar | Cache Writes | Cache Hits | Token Output |
---|---|---|---|---|
Claude Opus 4.1 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Opus 4 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Sonnet 4 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
Claude Sonnet 3.7 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
max_tokens
lebih besar dari 21.333. Ketika streaming, bersiaplah untuk menangani blok konten thinking dan teks saat mereka tiba.temperature
atau top_k
serta forced tool use.top_p
ke nilai antara 1 dan 0,95.