Questa guida descrive come lavorare con le immagini in Claude, incluse le migliori pratiche, esempi di codice e limitazioni da tenere a mente.


Come utilizzare la visione

Usa le capacità visive di Claude tramite:

  • claude.ai. Carica un’immagine come faresti con un file, o trascina e rilascia un’immagine direttamente nella finestra di chat.
  • Il Console Workbench. Se selezioni un modello che accetta immagini (solo modelli Claude 3), apparirà un pulsante per aggiungere immagini in alto a destra di ogni blocco di messaggi Utente.
  • Richiesta API. Vedi gli esempi in questa guida.

Prima di caricare

Nozioni di base e limiti

Puoi includere più immagini in una singola richiesta (fino a 20 per claude.ai e 100 per le richieste API). Claude analizzerà tutte le immagini fornite quando formula la sua risposta. Questo può essere utile per confrontare o mettere a confronto le immagini.

Se invii un’immagine più grande di 8000x8000 px, verrà rifiutata. Se invii più di 20 immagini in una richiesta API, questo limite è di 2000x2000 px.

Valutare la dimensione dell’immagine

Per prestazioni ottimali, consigliamo di ridimensionare le immagini prima del caricamento se sono troppo grandi. Se il lato lungo della tua immagine è superiore a 1568 pixel, o la tua immagine è più di ~1.600 token, verrà prima ridimensionata, mantenendo le proporzioni, fino a rientrare nei limiti di dimensione.

Se la tua immagine di input è troppo grande e necessita di essere ridimensionata, aumenterà la latenza del time-to-first-token, senza darti alcuna prestazione aggiuntiva del modello. Immagini molto piccole sotto i 200 pixel su qualsiasi lato potrebbero degradare le prestazioni.

Per migliorare il time-to-first-token, consigliamo di ridimensionare le immagini a non più di 1,15 megapixel (e entro 1568 pixel in entrambe le dimensioni).

Ecco una tabella delle dimensioni massime delle immagini accettate dalla nostra API che non verranno ridimensionate per i rapporti di aspetto comuni. Con il modello Claude 3.5 Sonnet, queste immagini utilizzano circa 1.600 token e circa $4,80/1K immagini.

Rapporto di aspettoDimensione immagine
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Calcolare i costi delle immagini

Ogni immagine che includi in una richiesta a Claude conta nel tuo utilizzo di token. Per calcolare il costo approssimativo, moltiplica il numero approssimativo di token dell’immagine per il prezzo per token del modello che stai utilizzando.

Se la tua immagine non necessita di essere ridimensionata, puoi stimare il numero di token utilizzati attraverso questo algoritmo: token = (larghezza px * altezza px)/750

Ecco esempi di tokenizzazione approssimativa e costi per diverse dimensioni di immagini entro i vincoli di dimensione della nostra API basati sul prezzo per token di Claude 3.5 Sonnet di $3 per milione di token di input:

Dimensione immagine# di TokenCosto / immagineCosto / 1K immagini
200x200 px(0,04 megapixel)~54~$0,00016~$0,16
1000x1000 px(1 megapixel)~1334~$0,004~$4,00
1092x1092 px(1,19 megapixel)~1590~$0,0048~$4,80

Garantire la qualità dell’immagine

Quando fornisci immagini a Claude, tieni presente quanto segue per ottenere i migliori risultati:

  • Formato immagine: Usa un formato immagine supportato: JPEG, PNG, GIF o WebP.
  • Chiarezza dell’immagine: Assicurati che le immagini siano chiare e non troppo sfocate o pixelate.
  • Testo: Se l’immagine contiene testo importante, assicurati che sia leggibile e non troppo piccolo. Evita di ritagliare il contesto visivo chiave solo per ingrandire il testo.

Esempi di prompt

Molte delle tecniche di prompting che funzionano bene per le interazioni basate su testo con Claude possono essere applicate anche ai prompt basati su immagini.

Questi esempi dimostrano le strutture di prompt delle migliori pratiche che coinvolgono le immagini.

Proprio come con il posizionamento delle query dei documenti, Claude funziona meglio quando le immagini vengono prima del testo. Le immagini posizionate dopo il testo o interpolate con il testo funzioneranno comunque bene, ma se il tuo caso d’uso lo consente, consigliamo una struttura immagine-poi-testo.

Informazioni sugli esempi di prompt

Questi esempi di prompt utilizzano l’SDK Python di Anthropic e recuperano immagini da Wikipedia utilizzando la libreria httpx. Puoi utilizzare qualsiasi fonte di immagini.

Gli esempi di prompt utilizzano queste variabili.

Python
import base64
import httpx

image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.standard_b64encode(httpx.get(image2_url).content).decode("utf-8")

Per utilizzare le immagini quando si effettua una richiesta API, puoi fornire immagini a Claude come immagine codificata in base64 nei blocchi di contenuto image. Ecco un semplice esempio in Python che mostra come includere un’immagine codificata in base64 in una richiesta Messages API:

Python
import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Descrivi questa immagine."
                }
            ],
        }
    ],
)
print(message)

Vedi Esempi Messages API per ulteriori esempi di codice e dettagli sui parametri.


Limitazioni

Mentre le capacità di comprensione delle immagini di Claude sono all’avanguardia, ci sono alcune limitazioni da tenere presente:

  • Identificazione delle persone: Claude non può essere utilizzato per identificare (cioè nominare) persone nelle immagini e si rifiuterà di farlo.
  • Accuratezza: Claude potrebbe avere allucinazioni o commettere errori nell’interpretare immagini di bassa qualità, ruotate o molto piccole sotto i 200 pixel.
  • Ragionamento spaziale: Le capacità di ragionamento spaziale di Claude sono limitate. Potrebbe avere difficoltà con compiti che richiedono localizzazione precisa o layout, come leggere il quadrante di un orologio analogico o descrivere le posizioni esatte dei pezzi degli scacchi.
  • Conteggio: Claude può dare conteggi approssimativi di oggetti in un’immagine ma potrebbe non essere sempre precisamente accurato, specialmente con grandi numeri di piccoli oggetti.
  • Immagini generate dall’IA: Claude non sa se un’immagine è generata dall’IA e potrebbe sbagliarsi se gli viene chiesto. Non fare affidamento su di esso per rilevare immagini false o sintetiche.
  • Contenuti inappropriati: Claude non elaborerà immagini inappropriate o esplicite che violano la nostra Politica di Utilizzo Accettabile.
  • Applicazioni sanitarie: Mentre Claude può analizzare immagini mediche generali, non è progettato per interpretare scansioni diagnostiche complesse come TC o RMN. Le uscite di Claude non dovrebbero essere considerate un sostituto del parere medico professionale o della diagnosi.

Rivedi sempre attentamente e verifica le interpretazioni delle immagini di Claude, specialmente per casi d’uso ad alto rischio. Non utilizzare Claude per compiti che richiedono precisione perfetta o analisi di immagini sensibili senza supervisione umana.


FAQ


Approfondisci la visione

Pronto per iniziare a costruire con le immagini usando Claude? Ecco alcune risorse utili:

Se hai altre domande, non esitare a contattare il nostro team di supporto. Puoi anche unirti alla nostra comunità di sviluppatori per connetterti con altri creatori e ottenere aiuto dagli esperti di Anthropic.