Dieser Leitfaden beschreibt, wie man mit Bildern in Claude arbeitet, einschließlich Best Practices, Codebeispielen und zu beachtenden Einschränkungen.


Wie man Vision nutzt

Nutzen Sie Claudes Vision-Fähigkeiten über:

  • claude.ai. Laden Sie ein Bild hoch wie eine Datei oder ziehen Sie ein Bild direkt per Drag-and-Drop in das Chat-Fenster.
  • Die Console Workbench. Wenn Sie ein Modell auswählen, das Bilder akzeptiert (nur Claude 3 und 4 Modelle), erscheint oben rechts in jedem User-Nachrichtenblock eine Schaltfläche zum Hinzufügen von Bildern.
  • API-Anfrage. Siehe die Beispiele in diesem Leitfaden.

Vor dem Hochladen

Grundlagen und Limits

Sie können mehrere Bilder in einer einzigen Anfrage einschließen (bis zu 20 für claude.ai und 100 für API-Anfragen). Claude wird alle bereitgestellten Bilder analysieren, wenn es seine Antwort formuliert. Dies kann hilfreich sein, um Bilder zu vergleichen oder gegenüberzustellen.

Wenn Sie ein Bild größer als 8000x8000 px hochladen, wird es abgelehnt. Wenn Sie mehr als 20 Bilder in einer API-Anfrage einreichen, liegt dieses Limit bei 2000x2000 px.

Bildgröße bewerten

Für optimale Leistung empfehlen wir, Bilder vor dem Hochladen zu verkleinern, wenn sie zu groß sind. Wenn die lange Kante Ihres Bildes mehr als 1568 Pixel beträgt oder Ihr Bild mehr als ~1.600 Token umfasst, wird es zunächst unter Beibehaltung des Seitenverhältnisses verkleinert, bis es innerhalb der Größenbeschränkungen liegt.

Wenn Ihr Eingabebild zu groß ist und verkleinert werden muss, erhöht sich die Latenz der time-to-first-token, ohne dass Sie eine zusätzliche Modellleistung erhalten. Sehr kleine Bilder unter 200 Pixeln an einer beliebigen Kante können die Leistung beeinträchtigen.

Um die time-to-first-token zu verbessern, empfehlen wir, Bilder auf nicht mehr als 1,15 Megapixel zu verkleinern (und innerhalb von 1568 Pixeln in beiden Dimensionen).

Hier ist eine Tabelle mit maximalen Bildgrößen, die von unserer API akzeptiert werden und für gängige Seitenverhältnisse nicht verkleinert werden. Mit dem Claude Sonnet 3.7 Modell verwenden diese Bilder etwa 1.600 Token und kosten etwa 4,80 $/1.000 Bilder.

SeitenverhältnisBildgröße
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Bildkosten berechnen

Jedes Bild, das Sie in eine Anfrage an Claude einfügen, zählt zu Ihrer Token-Nutzung. Um die ungefähren Kosten zu berechnen, multiplizieren Sie die ungefähre Anzahl der Bild-Token mit dem Token-Preis des Modells, das Sie verwenden.

Wenn Ihr Bild nicht verkleinert werden muss, können Sie die Anzahl der verwendeten Token durch diesen Algorithmus schätzen: Token = (Breite px * Höhe px)/750

Hier sind Beispiele für ungefähre Tokenisierung und Kosten für verschiedene Bildgrößen innerhalb der Größenbeschränkungen unserer API, basierend auf dem Claude Sonnet 3.7 Token-Preis von 3 $ pro Million Input-Token:

Bildgröße# der TokenKosten / BildKosten / 1.000 Bilder
200x200 px(0,04 Megapixel)~54~$0,00016~$0,16
1000x1000 px(1 Megapixel)~1334~$0,004~$4,00
1092x1092 px(1,19 Megapixel)~1590~$0,0048~$4,80

Sicherstellen der Bildqualität

Beachten Sie bei der Bereitstellung von Bildern für Claude Folgendes für beste Ergebnisse:

  • Bildformat: Verwenden Sie ein unterstütztes Bildformat: JPEG, PNG, GIF oder WebP.
  • Bildklarheit: Stellen Sie sicher, dass Bilder klar und nicht zu verschwommen oder pixelig sind.
  • Text: Wenn das Bild wichtigen Text enthält, stellen Sie sicher, dass er lesbar und nicht zu klein ist. Vermeiden Sie es, wichtigen visuellen Kontext nur zu beschneiden, um den Text zu vergrößern.

Prompt-Beispiele

Viele der Prompting-Techniken, die gut für textbasierte Interaktionen mit Claude funktionieren, können auch auf bildbasierte Prompts angewendet werden.

Diese Beispiele demonstrieren Best-Practice-Prompt-Strukturen mit Bildern.

Genau wie bei der Dokument-Abfrage-Platzierung funktioniert Claude am besten, wenn Bilder vor dem Text kommen. Bilder, die nach dem Text platziert oder mit Text interpoliert werden, funktionieren immer noch gut, aber wenn Ihr Anwendungsfall es zulässt, empfehlen wir eine Bild-dann-Text-Struktur.

Über die Prompt-Beispiele

Die folgenden Beispiele zeigen, wie man Claudes Vision-Fähigkeiten mit verschiedenen Programmiersprachen und Ansätzen nutzen kann. Sie können Claude Bilder auf drei Arten bereitstellen:

  1. Als Base64-kodiertes Bild in image-Inhaltsblöcken
  2. Als URL-Referenz zu einem online gehosteten Bild
  3. Über die Files API (einmal hochladen, mehrfach verwenden)

Die Base64-Beispiel-Prompts verwenden diese Variablen:

    # Für URL-basierte Bilder können Sie die URL direkt in Ihrer JSON-Anfrage verwenden
    
    # Für Base64-kodierte Bilder müssen Sie zuerst das Bild kodieren
    # Beispiel, wie man ein Bild in Bash zu Base64 kodiert:
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # Die kodierte Daten können nun in Ihren API-Aufrufen verwendet werden

Nachfolgend finden Sie Beispiele, wie Sie Bilder in einer Messages API-Anfrage mit Base64-kodierten Bildern und URL-Referenzen einfügen können:

Base64-kodiertes Bildbeispiel

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

URL-basiertes Bildbeispiel

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Files API Bildbeispiel

Für Bilder, die Sie wiederholt verwenden möchten oder wenn Sie den Kodierungsaufwand vermeiden möchten, verwenden Sie die Files API:

# Zuerst laden Sie Ihr Bild zur Files API hoch
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "file=@image.jpg"

# Dann verwenden Sie die zurückgegebene file_id in Ihrer Nachricht
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Siehe Messages API Beispiele für weitere Codebeispiele und Parameterdetails.


Einschränkungen

Während Claudes Bildverständnisfähigkeiten hochmodern sind, gibt es einige Einschränkungen, die zu beachten sind:

  • Personenidentifikation: Claude kann nicht verwendet werden, um Personen in Bildern zu identifizieren (d.h. zu benennen) und wird sich weigern, dies zu tun.
  • Genauigkeit: Claude kann halluzinieren oder Fehler machen, wenn es qualitativ minderwertige, gedrehte oder sehr kleine Bilder unter 200 Pixeln interpretiert.
  • Räumliches Denken: Claudes räumliche Denkfähigkeiten sind begrenzt. Es kann Schwierigkeiten mit Aufgaben haben, die präzise Lokalisierung oder Layouts erfordern, wie das Lesen eines analogen Zifferblatts oder das Beschreiben der genauen Positionen von Schachfiguren.
  • Zählen: Claude kann ungefähre Anzahlen von Objekten in einem Bild angeben, ist aber möglicherweise nicht immer präzise genau, besonders bei einer großen Anzahl kleiner Objekte.
  • KI-generierte Bilder: Claude weiß nicht, ob ein Bild KI-generiert ist, und kann falsch liegen, wenn es danach gefragt wird. Verlassen Sie sich nicht darauf, gefälschte oder synthetische Bilder zu erkennen.
  • Unangemessene Inhalte: Claude wird keine unangemessenen oder expliziten Bilder verarbeiten, die gegen unsere Acceptable Use Policy verstoßen.
  • Gesundheitsanwendungen: Obwohl Claude allgemeine medizinische Bilder analysieren kann, ist es nicht dafür konzipiert, komplexe diagnostische Scans wie CTs oder MRTs zu interpretieren. Claudes Ausgaben sollten nicht als Ersatz für professionellen medizinischen Rat oder Diagnose betrachtet werden.

Überprüfen Sie Claudes Bildinterpretationen immer sorgfältig, besonders für wichtige Anwendungsfälle. Verwenden Sie Claude nicht für Aufgaben, die perfekte Präzision oder sensible Bildanalyse erfordern, ohne menschliche Aufsicht.


FAQ


Tiefer in Vision eintauchen

Bereit, mit Bildern mit Claude zu bauen? Hier sind einige hilfreiche Ressourcen:

Wenn Sie weitere Fragen haben, wenden Sie sich gerne an unser Support-Team. Sie können auch unserer Entwickler-Community beitreten, um sich mit anderen Entwicklern zu vernetzen und Hilfe von Anthropic-Experten zu erhalten.