Panduan ini menjelaskan cara bekerja dengan gambar di Claude, termasuk praktik terbaik, contoh kode, dan batasan yang perlu diperhatikan.


Cara menggunakan visi

Gunakan kemampuan visi Claude melalui:

  • claude.ai. Unggah gambar seperti Anda mengunggah file, atau seret dan lepas gambar langsung ke jendela obrolan.
  • Console Workbench. Jika Anda memilih model yang menerima gambar (hanya model Claude 3), tombol untuk menambahkan gambar muncul di kanan atas setiap blok pesan Pengguna.
  • Permintaan API. Lihat contoh dalam panduan ini.

Sebelum mengunggah

Evaluasi ukuran gambar

Anda dapat menyertakan beberapa gambar dalam satu permintaan (hingga 5 untuk claude.ai dan 20 untuk permintaan API). Claude akan menganalisis semua gambar yang disediakan saat merumuskan responsnya. Ini dapat membantu untuk membandingkan atau mengontraskan gambar.

Untuk kinerja optimal, kami menyarankan untuk mengubah ukuran gambar sebelum mengunggah jika melebihi batas ukuran atau token. Jika sisi panjang gambar Anda lebih dari 1568 piksel, atau gambar Anda lebih dari ~1.600 token, gambar akan terlebih dahulu diubah ukurannya, dengan mempertahankan rasio aspek, hingga berada dalam batas ukuran.

Jika gambar input Anda terlalu besar dan perlu diubah ukurannya, hal ini akan meningkatkan latensi time-to-first-token, tanpa memberikan kinerja model tambahan. Gambar yang sangat kecil di bawah 200 piksel pada sisi tertentu dapat menurunkan kinerja.

Untuk meningkatkan time-to-first-token, kami menyarankan untuk mengubah ukuran gambar menjadi tidak lebih dari 1,15 megapiksel (dan dalam 1568 piksel di kedua dimensi).

Berikut adalah tabel ukuran gambar maksimum yang diterima oleh API kami yang tidak akan diubah ukurannya untuk rasio aspek umum. Dengan model Claude 3.5 Sonnet, gambar-gambar ini menggunakan sekitar 1.600 token dan sekitar $4,80/1K gambar.

Rasio aspekUkuran gambar
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Hitung biaya gambar

Setiap gambar yang Anda sertakan dalam permintaan ke Claude dihitung sebagai penggunaan token Anda. Untuk menghitung perkiraan biaya, kalikan perkiraan jumlah token gambar dengan harga per token model yang Anda gunakan.

Jika gambar Anda tidak perlu diubah ukurannya, Anda dapat memperkirakan jumlah token yang digunakan melalui algoritma ini: token = (lebar px * tinggi px)/750

Berikut adalah contoh perkiraan tokenisasi dan biaya untuk berbagai ukuran gambar dalam batasan ukuran API kami berdasarkan harga per token Claude 3.5 Sonnet sebesar $3 per juta token input:

Ukuran gambar# TokenBiaya / gambarBiaya / 1K gambar
200x200 px(0,04 megapiksel)~54~$0,00016~$0,16
1000x1000 px(1 megapiksel)~1334~$0,004~$4,00
1092x1092 px(1,19 megapiksel)~1590~$0,0048~$4,80

Memastikan kualitas gambar

Saat menyediakan gambar untuk Claude, perhatikan hal-hal berikut untuk hasil terbaik:

  • Format gambar: Gunakan format gambar yang didukung: JPEG, PNG, GIF, atau WebP.
  • Kejelasan gambar: Pastikan gambar jelas dan tidak terlalu buram atau pikselasi.
  • Teks: Jika gambar berisi teks penting, pastikan teks tersebut dapat dibaca dan tidak terlalu kecil. Hindari memotong konteks visual utama hanya untuk memperbesar teks.

Contoh prompt

Banyak teknik prompting yang bekerja dengan baik untuk interaksi berbasis teks dengan Claude juga dapat diterapkan pada prompt berbasis gambar.

Contoh-contoh ini mendemonstrasikan struktur prompt praktik terbaik yang melibatkan gambar.

Sama seperti dengan penempatan kueri dokumen, Claude bekerja paling baik ketika gambar ditempatkan sebelum teks. Gambar yang ditempatkan setelah teks atau diinterpolasi dengan teks masih akan berkinerja baik, tetapi jika kasus penggunaan Anda memungkinkan, kami menyarankan struktur gambar-kemudian-teks.

Tentang contoh prompt

Contoh prompt ini menggunakan Anthropic Python SDK, dan mengambil gambar dari Wikipedia menggunakan pustaka httpx. Anda dapat menggunakan sumber gambar apa pun.

Contoh prompt menggunakan variabel-variabel ini.

Python
import base64
import httpx

image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.b64encode(httpx.get(image2_url).content).decode("utf-8")

Untuk menggunakan gambar saat membuat permintaan API, Anda dapat menyediakan gambar ke Claude sebagai gambar yang dikodekan base64 dalam blok konten image. Berikut adalah contoh sederhana dalam Python yang menunjukkan cara menyertakan gambar yang dikodekan base64 dalam permintaan Messages API:

Python
import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-3-5-sonnet-20240620",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Deskripsikan gambar ini."
                }
            ],
        }
    ],
)
print(message)

Lihat contoh Messages API untuk lebih banyak contoh kode dan detail parameter.


Batasan

Meskipun kemampuan pemahaman gambar Claude sangat canggih, ada beberapa batasan yang perlu diperhatikan:

  • Identifikasi orang: Claude tidak dapat digunakan untuk mengidentifikasi (yaitu, menamai) orang dalam gambar dan akan menolak untuk melakukannya.
  • Akurasi: Claude mungkin berhalusinasi atau membuat kesalahan saat menafsirkan gambar berkualitas rendah, diputar, atau sangat kecil di bawah 200 piksel.
  • Penalaran spasial: Kemampuan penalaran spasial Claude terbatas. M mungkin kesulitan dengan tugas yang memerlukan lokalisasi atau tata letak yang tepat, seperti membaca muka jam analog atau mendeskripsikan posisi tepat bidak catur.
  • Menghitung: Claude dapat memberikan perkiraan jumlah objek dalam gambar tetapi mungkin tidak selalu akurat secara tepat, terutama dengan sejumlah besar objek kecil.
  • Gambar yang dihasilkan AI: Claude tidak tahu apakah suatu gambar dihasilkan oleh AI dan mungkin salah jika ditanya. Jangan mengandalkannya untuk mendeteksi gambar palsu atau sintetis.
  • Konten tidak pantas: Claude tidak akan memproses gambar yang tidak pantas atau eksplisit yang melanggar Kebijakan Penggunaan yang Dapat Diterima kami.
  • Aplikasi kesehatan: Meskipun Claude dapat menganalisis gambar medis umum, ia tidak dirancang untuk menafsirkan pemindaian diagnostik kompleks seperti CT atau MRI. Output Claude tidak boleh dianggap sebagai pengganti saran atau diagnosis medis profesional.

Selalu tinjau dan verifikasi dengan cermat interpretasi gambar Claude, terutama untuk kasus penggunaan berisiko tinggi. Jangan gunakan Claude untuk tugas yang memerlukan presisi sempurna atau analisis gambar sensitif tanpa pengawasan manusia.


FAQ


Pelajari lebih lanjut tentang visi

Siap untuk mulai membangun dengan gambar menggunakan Claude? Berikut beberapa sumber daya yang bermanfaat:

Jika Anda memiliki pertanyaan lain, jangan ragu untuk menghubungi tim dukungan kami. Anda juga dapat bergabung dengan komunitas pengembang kami untuk terhubung dengan kreator lain dan mendapatkan bantuan dari para ahli Anthropic.