Vision
La famiglia di modelli Claude 3 è dotata di nuove capacità di visione che permettono a Claude di comprendere e analizzare le immagini, aprendo interessanti possibilità di interazione multimodale.
Questa guida descrive come lavorare con le immagini in Claude, incluse le migliori pratiche, esempi di codice e limitazioni da tenere a mente.
Come utilizzare la visione
Utilizza le capacità di visione di Claude tramite:
- claude.ai. Carica un’immagine come faresti con un file, o trascina e rilascia un’immagine direttamente nella finestra di chat.
- La Console Workbench. Se selezioni un modello che accetta immagini (solo modelli Claude 3), un pulsante per aggiungere immagini appare in alto a destra di ogni blocco di messaggi dell’utente.
- Richiesta API. Vedi gli esempi in questa guida.
Prima di caricare
Valuta la dimensione dell’immagine
Puoi includere più immagini in una singola richiesta (fino a 5 per claude.ai e 20 per le richieste API). Claude analizzerà tutte le immagini fornite quando formulerà la sua risposta. Questo può essere utile per confrontare o contrastare le immagini.
Per prestazioni ottimali, consigliamo di ridimensionare le immagini prima del caricamento se superano i limiti di dimensione o token. Se il lato lungo dell’immagine supera i 1568 pixel, o l’immagine supera i ~1.600 token, verrà prima ridimensionata, mantenendo le proporzioni, finché non rientra nei limiti di dimensione.
Se l’immagine di input è troppo grande e deve essere ridimensionata, aumenterà la latenza del time-to-first-token, senza fornire alcuna prestazione aggiuntiva del modello. Immagini molto piccole sotto i 200 pixel su qualsiasi lato possono degradare le prestazioni.
Ecco una tabella delle dimensioni massime delle immagini accettate dalla nostra API che non verranno ridimensionate per i rapporti d’aspetto comuni. Con il modello Claude 3.5 Sonnet, queste immagini utilizzano circa 1.600 token e circa $4,80/1K immagini.
Rapporto d’aspetto | Dimensione immagine |
---|---|
1:1 | 1092x1092 px |
3:4 | 951x1268 px |
2:3 | 896x1344 px |
9:16 | 819x1456 px |
1:2 | 784x1568 px |
Calcola i costi delle immagini
Ogni immagine inclusa in una richiesta a Claude conta per l’utilizzo dei token. Per calcolare il costo approssimativo, moltiplica il numero approssimativo di token dell’immagine per il prezzo per token del modello che stai utilizzando.
Se l’immagine non deve essere ridimensionata, puoi stimare il numero di token utilizzati attraverso questo algoritmo: token = (larghezza px * altezza px)/750
Ecco esempi di tokenizzazione approssimativa e costi per diverse dimensioni di immagini entro i limiti di dimensione della nostra API basati sul prezzo per token di Claude 3.5 Sonnet di $3 per milione di token di input:
Dimensione immagine | # di Token | Costo / immagine | Costo / 1K immagini |
---|---|---|---|
200x200 px(0,04 megapixel) | ~54 | ~$0,00016 | ~$0,16 |
1000x1000 px(1 megapixel) | ~1334 | ~$0,004 | ~$4,00 |
1092x1092 px(1,19 megapixel) | ~1590 | ~$0,0048 | ~$4,80 |
Garantire la qualità dell’immagine
Quando fornisci immagini a Claude, tieni presente quanto segue per ottenere i migliori risultati:
- Formato immagine: Utilizza un formato di immagine supportato: JPEG, PNG, GIF o WebP.
- Chiarezza dell’immagine: Assicurati che le immagini siano chiare e non troppo sfocate o pixelate.
- Testo: Se l’immagine contiene testo importante, assicurati che sia leggibile e non troppo piccolo. Evita di ritagliare il contesto visivo chiave solo per ingrandire il testo.
Esempi di prompt
Molte delle tecniche di prompting che funzionano bene per le interazioni basate su testo con Claude possono essere applicate anche ai prompt basati su immagini.
Questi esempi dimostrano le migliori strutture di prompt che coinvolgono immagini.
Informazioni sugli esempi di prompt
Questi esempi di prompt utilizzano l’SDK Python di Anthropic e recuperano le immagini da Wikipedia utilizzando la libreria httpx
. Puoi utilizzare qualsiasi fonte di immagini.
Gli esempi di prompt utilizzano queste variabili.
import base64
import httpx
image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.b64encode(httpx.get(image1_url).content).decode("utf-8")
image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.b64encode(httpx.get(image2_url).content).decode("utf-8")
Per utilizzare le immagini quando si effettua una richiesta API, puoi fornire le immagini a Claude come immagine codificata in base64 nei blocchi di contenuto image
. Ecco un semplice esempio in Python che mostra come includere un’immagine codificata in base64 in una richiesta API Messages:
import anthropic
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": image1_media_type,
"data": image1_data,
},
},
{
"type": "text",
"text": "Descrivi questa immagine."
}
],
}
],
)
print(message)
Vedi esempi API Messages per ulteriori esempi di codice e dettagli sui parametri.
Limitazioni
Sebbene le capacità di comprensione delle immagini di Claude siano all’avanguardia, ci sono alcune limitazioni di cui essere consapevoli:
- Identificazione delle persone: Claude non può essere utilizzato per identificare (cioè nominare) le persone nelle immagini e si rifiuterà di farlo.
- Accuratezza: Claude potrebbe allucinare o commettere errori nell’interpretare immagini di bassa qualità, ruotate o molto piccole sotto i 200 pixel.
- Ragionamento spaziale: Le capacità di ragionamento spaziale di Claude sono limitate. Potrebbe avere difficoltà con compiti che richiedono una localizzazione o disposizioni precise, come leggere il quadrante di un orologio analogico o descrivere le posizioni esatte dei pezzi degli scacchi.
- Conteggio: Claude può fornire conteggi approssimativi di oggetti in un’immagine, ma potrebbe non essere sempre precisamente accurato, specialmente con un gran numero di piccoli oggetti.
- Immagini generate dall’AI: Claude non sa se un’immagine è generata dall’AI e potrebbe sbagliarsi se gli viene chiesto. Non fare affidamento su di esso per rilevare immagini false o sintetiche.
- Contenuti inappropriati: Claude non elaborerà immagini inappropriate o esplicite che violano la nostra Politica di utilizzo accettabile.
- Applicazioni sanitarie: Sebbene Claude possa analizzare immagini mediche generali, non è progettato per interpretare scansioni diagnostiche complesse come TC o MRI. Gli output di Claude non devono essere considerati un sostituto di consigli o diagnosi mediche professionali.
Rivedi e verifica sempre attentamente le interpretazioni delle immagini di Claude, specialmente per casi d’uso ad alto rischio. Non utilizzare Claude per attività che richiedono una precisione perfetta o un’analisi delle immagini sensibile senza supervisione umana.
FAQ
Approfondisci la visione
Sei pronto a iniziare a costruire con le immagini utilizzando Claude? Ecco alcune risorse utili:
- Multimodal cookbook: Questo ricettario contiene suggerimenti su come iniziare con le immagini e tecniche di best practice per garantire le prestazioni di massima qualità con le immagini. Scopri come puoi sollecitare efficacemente Claude con le immagini per svolgere attività come interpretare e analizzare grafici o estrarre contenuti da moduli.
- Riferimento API: Visita la nostra documentazione per l’API Messages, inclusi esempi di chiamate API che coinvolgono immagini.
Se hai altre domande, non esitare a contattare il nostro team di supporto. Puoi anche unirti alla nostra community di sviluppatori per connetterti con altri creatori e ottenere aiuto dagli esperti di Anthropic.