Dieser Leitfaden beschreibt, wie man mit Bildern in Claude arbeitet, einschließlich Best Practices, Codebeispielen und zu beachtenden Einschränkungen.


Wie man Vision verwendet

Nutzen Sie Claudes Vision-Fähigkeiten über:

  • claude.ai. Laden Sie ein Bild hoch, wie Sie es bei einer Datei tun würden, oder ziehen Sie ein Bild direkt in das Chatfenster.
  • Die Console Workbench. Wenn Sie ein Modell auswählen, das Bilder akzeptiert (nur Claude 3-Modelle), erscheint oben rechts in jedem Benutzer-Nachrichtenblock eine Schaltfläche zum Hinzufügen von Bildern.
  • API-Anfrage. Siehe die Beispiele in diesem Leitfaden.

Vor dem Hochladen

Bildgröße auswerten

Sie können mehrere Bilder in einer einzigen Anfrage einbinden (bis zu 5 für claude.ai und 20 für API-Anfragen). Claude analysiert alle bereitgestellten Bilder bei der Formulierung seiner Antwort. Dies kann hilfreich sein, um Bilder zu vergleichen oder gegenüberzustellen.

Für eine optimale Leistung empfehlen wir, Bilder vor dem Hochladen zu verkleinern, wenn sie die Größen- oder Token-Limits überschreiten. Wenn die lange Kante Ihres Bildes mehr als 1568 Pixel beträgt oder Ihr Bild mehr als ~1.600 Token umfasst, wird es zunächst unter Beibehaltung des Seitenverhältnisses verkleinert, bis es innerhalb der Größenbeschränkungen liegt.

Wenn Ihr Eingabebild zu groß ist und verkleinert werden muss, erhöht sich die Latenz der Zeit bis zum ersten Token, ohne dass Sie eine zusätzliche Modellleistung erhalten. Sehr kleine Bilder unter 200 Pixeln an einer beliebigen Kante können die Leistung beeinträchtigen.

Um die Zeit bis zum ersten Token zu verbessern, empfehlen wir, Bilder auf nicht mehr als 1,15 Megapixel (und innerhalb von 1568 Pixeln in beiden Dimensionen) zu verkleinern.

Hier ist eine Tabelle der maximalen Bildgrößen, die von unserer API akzeptiert werden und für gängige Seitenverhältnisse nicht verkleinert werden. Mit dem Claude 3.5 Sonnet-Modell verwenden diese Bilder ungefähr 1.600 Token und kosten etwa $4,80/1.000 Bilder.

SeitenverhältnisBildgröße
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Bildkosten berechnen

Jedes Bild, das Sie in eine Anfrage an Claude einbinden, zählt zu Ihrem Token-Verbrauch. Um die ungefähren Kosten zu berechnen, multiplizieren Sie die ungefähre Anzahl der Bild-Token mit dem Preis pro Token des verwendeten Modells.

Wenn Ihr Bild nicht verkleinert werden muss, können Sie die Anzahl der verwendeten Token mit diesem Algorithmus abschätzen: Tokens = (Breite px * Höhe px)/750

Hier sind Beispiele für die ungefähre Tokenisierung und Kosten für verschiedene Bildgrößen innerhalb der Größenbeschränkungen unserer API, basierend auf dem Claude 3.5 Sonnet-Preis pro Token von $3 pro Million Eingabe-Token:

BildgrößeAnzahl TokenKosten/BildKosten/1.000 Bilder
200x200 px (0,04 Megapixel)~54~$0,00016~$0,16
1000x1000 px (1 Megapixel)~1334~$0,004~$4,00
1092x1092 px (1,19 Megapixel)~1590~$0,0048~$4,80

Bildqualität sicherstellen

Beachten Sie bei der Bereitstellung von Bildern für Claude Folgendes, um optimale Ergebnisse zu erzielen:

  • Bildformat: Verwenden Sie ein unterstütztes Bildformat: JPEG, PNG, GIF oder WebP.
  • Bildklarheit: Stellen Sie sicher, dass die Bilder klar und nicht zu verschwommen oder verpixelt sind.
  • Text: Wenn das Bild wichtigen Text enthält, stellen Sie sicher, dass er lesbar und nicht zu klein ist. Vermeiden Sie es, wichtigen visuellen Kontext abzuschneiden, nur um den Text zu vergrößern.

Beispiele für Prompts

Viele der Prompt-Techniken, die gut für textbasierte Interaktionen mit Claude funktionieren, können auch auf bildbasierte Prompts angewendet werden.

Diese Beispiele demonstrieren Best-Practice-Prompt-Strukturen mit Bildern.

Genau wie bei der Platzierung von Dokument-Abfragen funktioniert Claude am besten, wenn Bilder vor dem Text stehen. Bilder, die nach dem Text oder interpoliert mit Text platziert werden, funktionieren immer noch gut, aber wenn Ihr Anwendungsfall es zulässt, empfehlen wir eine Struktur mit Bild-dann-Text.

Über die Prompt-Beispiele

Diese Prompt-Beispiele verwenden das Anthropic Python SDK und rufen Bilder von Wikipedia mithilfe der httpx-Bibliothek ab. Sie können jede beliebige Bildquelle verwenden.

Die Beispiel-Prompts verwenden diese Variablen.

Python
import base64
import httpx

image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.b64encode(httpx.get(image2_url).content).decode("utf-8")

Um Bilder bei einer API-Anfrage zu verwenden, können Sie Claude Bilder als base64-kodiertes Bild in image-Inhaltsblöcken bereitstellen. Hier ist ein einfaches Beispiel in Python, das zeigt, wie man ein base64-kodiertes Bild in eine Messages API-Anfrage einbindet:

Python
import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-3-5-sonnet-20240620",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Beschreibe dieses Bild."
                }
            ],
        }
    ],
)
print(message)

Weitere Beispielcodes und Parameterdetails finden Sie unter Messages API-Beispiele.


Einschränkungen

Obwohl Claudes Fähigkeiten zum Bildverständnis hochmodern sind, gibt es einige Einschränkungen zu be achten:

  • Personenidentifikation: Claude darf nicht verwendet werden, um Personen auf Bildern zu identifizieren (d. h. zu benennen) und wird sich weigern, dies zu tun.
  • Genauigkeit: Claude kann bei der Interpretation von Bildern mit geringer Qualität, gedrehten oder sehr kleinen Bildern unter 200 Pixeln halluzinieren oder Fehler machen.
  • Räumliches Denken: Claudes Fähigkeiten zum räumlichen Denken sind begrenzt. Es kann Schwierigkeiten bei Aufgaben haben, die eine präzise Lokalisierung oder Anordnung erfordern, wie z. B. das Ablesen eines analogen Zifferblatts oder die Beschreibung der genauen Positionen von Schachfiguren.
  • Zählen: Claude kann ungefähre Zählungen von Objekten in einem Bild angeben, ist aber möglicherweise nicht immer präzise genau, insbesondere bei einer großen Anzahl kleiner Objekte.
  • KI-generierte Bilder: Claude weiß nicht, ob ein Bild KI-generiert ist, und kann sich irren, wenn es danach gefragt wird. Verlassen Sie sich nicht darauf, dass es gefälschte oder synthetische Bilder erkennt.
  • Unangemessene Inhalte: Claude wird keine unangemessenen oder expliziten Bilder verarbeiten, die gegen unsere Nutzungsbedingungen verstoßen.
  • Anwendungen im Gesundheitswesen: Während Claude allgemeine medizinische Bilder analysieren kann, ist es nicht dafür ausgelegt, komplexe diagnostische Scans wie CTs oder MRTs zu interpretieren. Claudes Ausgaben sollten nicht als Ersatz für professionelle medizinische Beratung oder Diagnose angesehen werden.

Überprüfen Sie Claudes Bildinterpretationen immer sorgfältig, insbesondere für Anwendungsfälle mit hohem Risiko. Verwenden Sie Claude nicht für Aufgaben, die perfekte Präzision oder sensible Bildanalyse erfordern, ohne menschliche Aufsicht.


FAQ


Tauchen Sie tiefer in Vision ein

Sind Sie bereit, mit Bildern mit Claude zu arbeiten? Hier sind einige hilfreiche Ressourcen:

Wenn Sie weitere Fragen haben, wenden Sie sich gerne an unser Support-Team. Sie können auch unserer Entwickler-Community beitreten, um sich mit anderen Entwicklern zu vernetzen und Hilfe von Anthropic-Experten zu erhalten.