Vision

Dieser Leitfaden beschreibt, wie Sie mit Bildern in Claude arbeiten, einschließlich bewährter Praktiken, Codebeispielen und Einschränkungen, die Sie beachten sollten.

Wie Sie Vision verwenden

Nutzen Sie Claudes Vision-Fähigkeiten über:

claude.ai. Laden Sie ein Bild wie eine Datei hoch oder ziehen Sie ein Bild direkt in das Chat-Fenster.
Die Console Workbench. Wenn Sie ein Modell auswählen, das Bilder akzeptiert (nur Claude 3 und 4 Modelle), erscheint oben rechts in jedem Benutzer-Nachrichtenblock eine Schaltfläche zum Hinzufügen von Bildern.
API-Anfrage. Siehe die Beispiele in diesem Leitfaden.

Bevor Sie hochladen

Grundlagen und Grenzen

Sie können mehrere Bilder in einer einzigen Anfrage einschließen (bis zu 20 für claude.ai und 100 für API-Anfragen). Claude wird alle bereitgestellten Bilder bei der Formulierung seiner Antwort analysieren. Dies kann hilfreich sein, um Bilder zu vergleichen oder zu kontrastieren.

Wenn Sie ein Bild größer als 8000x8000 px einreichen, wird es abgelehnt. Wenn Sie mehr als 20 Bilder in einer API-Anfrage einreichen, beträgt diese Grenze 2000x2000 px.

Während die API 100 Bilder pro Anfrage unterstützt, gibt es eine 32MB Anfragegrößenbegrenzung für Standard-Endpunkte.

Bildgröße bewerten

Für optimale Leistung empfehlen wir, Bilder vor dem Hochladen zu verkleinern, wenn sie zu groß sind. Wenn die lange Kante Ihres Bildes mehr als 1568 Pixel beträgt oder Ihr Bild mehr als ~1.600 Token umfasst, wird es zunächst unter Beibehaltung des Seitenverhältnisses verkleinert, bis es innerhalb der Größengrenzen liegt.

Wenn Ihr Eingabebild zu groß ist und verkleinert werden muss, erhöht sich die Latenz der Zeit bis zum ersten Token, ohne Ihnen zusätzliche Modellleistung zu bieten. Sehr kleine Bilder unter 200 Pixeln an einer beliebigen Kante können die Leistung beeinträchtigen.

Um die Zeit bis zum ersten Token zu verbessern, empfehlen wir, Bilder auf nicht mehr als 1,15 Megapixel (und innerhalb von 1568 Pixeln in beiden Dimensionen) zu verkleinern.

Hier ist eine Tabelle der maximalen Bildgrößen, die von unserer API akzeptiert werden und für gängige Seitenverhältnisse nicht verkleinert werden. Mit dem Claude Sonnet 3.7 Modell verwenden diese Bilder etwa 1.600 Token und kosten etwa $4,80/1K Bilder.

Seitenverhältnis	Bildgröße
1:1	1092x1092 px
3:4	951x1268 px
2:3	896x1344 px
9:16	819x1456 px
1:2	784x1568 px

Bildkosten berechnen

Jedes Bild, das Sie in eine Anfrage an Claude einschließen, zählt zu Ihrer Token-Nutzung. Um die ungefähren Kosten zu berechnen, multiplizieren Sie die ungefähre Anzahl der Bild-Token mit dem Token-Preis des Modells, das Sie verwenden.

Wenn Ihr Bild nicht verkleinert werden muss, können Sie die Anzahl der verwendeten Token durch diesen Algorithmus schätzen: Token = (Breite px * Höhe px)/750

Hier sind Beispiele für ungefähre Tokenisierung und Kosten für verschiedene Bildgrößen innerhalb der Größenbeschränkungen unserer API basierend auf Claude Sonnet 3.7 Token-Preis von $3 pro Million Eingabe-Token:

Bildgröße	Anzahl Token	Kosten / Bild	Kosten / 1K Bilder
200x200 px(0,04 Megapixel)	~54	~$0,00016	~$0,16
1000x1000 px(1 Megapixel)	~1334	~$0,004	~$4,00
1092x1092 px(1,19 Megapixel)	~1590	~$0,0048	~$4,80

Bildqualität sicherstellen

Beachten Sie beim Bereitstellen von Bildern an Claude folgende Punkte für beste Ergebnisse:

Bildformat: Verwenden Sie ein unterstütztes Bildformat: JPEG, PNG, GIF oder WebP.
Bildklarheit: Stellen Sie sicher, dass Bilder klar und nicht zu unscharf oder pixelig sind.
Text: Wenn das Bild wichtigen Text enthält, stellen Sie sicher, dass er lesbar und nicht zu klein ist. Vermeiden Sie es, wichtigen visuellen Kontext nur zur Vergrößerung des Textes abzuschneiden.

Prompt-Beispiele

Viele der Prompting-Techniken, die gut für textbasierte Interaktionen mit Claude funktionieren, können auch auf bildbasierte Prompts angewendet werden.

Diese Beispiele demonstrieren bewährte Prompt-Strukturen mit Bildern.

Genau wie bei der Platzierung von Dokument-Abfragen funktioniert Claude am besten, wenn Bilder vor Text kommen. Bilder, die nach Text platziert oder mit Text interpoliert werden, funktionieren immer noch gut, aber wenn Ihr Anwendungsfall es erlaubt, empfehlen wir eine Bild-dann-Text- Struktur.

Über die Prompt-Beispiele

Die folgenden Beispiele zeigen, wie Sie Claudes Vision-Fähigkeiten mit verschiedenen Programmiersprachen und Ansätzen nutzen können. Sie können Bilder auf drei Arten an Claude bereitstellen:

Als base64-kodiertes Bild in image Inhaltsblöcken
Als URL-Verweis auf ein online gehostetes Bild
Über die Files API (einmal hochladen, mehrfach verwenden)

Die base64-Beispiel-Prompts verwenden diese Variablen:

    # Für URL-basierte Bilder können Sie die URL direkt in Ihrer JSON-Anfrage verwenden
    
    # Für base64-kodierte Bilder müssen Sie das Bild zuerst kodieren
    # Beispiel, wie man ein Bild in bash zu base64 kodiert:
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # Die kodierten Daten können nun in Ihren API-Aufrufen verwendet werden

Unten sind Beispiele, wie Sie Bilder in eine Messages API-Anfrage mit base64-kodierten Bildern und URL-Verweisen einschließen:

Base64-kodiertes Bild Beispiel

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Beschreiben Sie dieses Bild."
          }
        ]
      }
    ]
  }'

URL-basiertes Bild Beispiel

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Beschreiben Sie dieses Bild."
          }
        ]
      }
    ]
  }'

Files API Bild Beispiel

Für Bilder, die Sie wiederholt verwenden werden oder wenn Sie Kodierungsaufwand vermeiden möchten, verwenden Sie die Files API:

# Laden Sie zuerst Ihr Bild in die Files API hoch
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "file=@image.jpg"

# Verwenden Sie dann die zurückgegebene file_id in Ihrer Nachricht
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Beschreiben Sie dieses Bild."
          }
        ]
      }
    ]
  }'

Siehe Messages API Beispiele für weitere Beispielcodes und Parameterdetails.

Beispiel: Ein Bild

Es ist am besten, Bilder früher im Prompt zu platzieren als Fragen über sie oder Anweisungen für Aufgaben, die sie verwenden.

Bitten Sie Claude, ein Bild zu beschreiben.

Rolle	Inhalt
Benutzer	[Bild] Beschreiben Sie dieses Bild.

Hier ist der entsprechende API-Aufruf mit dem Claude Sonnet 3.7 Modell.

Python
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Beschreiben Sie dieses Bild."
                }
            ],
        }
    ],
)

Python
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Beschreiben Sie dieses Bild."
                }
            ],
        }
    ],
)

Python
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg",
                    },
                },
                {
                    "type": "text",
                    "text": "Beschreiben Sie dieses Bild."
                }
            ],
        }
    ],
)

Beispiel: Mehrere Bilder

In Situationen mit mehreren Bildern führen Sie jedes Bild mit Bild 1: und Bild 2: und so weiter ein. Sie benötigen keine Zeilenumbrüche zwischen Bildern oder zwischen Bildern und dem Prompt.

Bitten Sie Claude, die Unterschiede zwischen mehreren Bildern zu beschreiben.

Rolle	Inhalt
Benutzer	Bild 1: [Bild 1] Bild 2: [Bild 2] Wie unterscheiden sich diese Bilder?

Hier ist der entsprechende API-Aufruf mit dem Claude Sonnet 3.7 Modell.

Python
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Bild 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Bild 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image2_media_type,
                        "data": image2_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Wie unterscheiden sich diese Bilder?"
                }
            ],
        }
    ],
)

Python
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Bild 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Bild 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image2_media_type,
                        "data": image2_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Wie unterscheiden sich diese Bilder?"
                }
            ],
        }
    ],
)

Python
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Bild 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg",
                    },
                },
                {
                    "type": "text",
                    "text": "Bild 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg",
                    },
                },
                {
                    "type": "text",
                    "text": "Wie unterscheiden sich diese Bilder?"
                }
            ],
        }
    ],
)

Beispiel: Mehrere Bilder mit einem System-Prompt

Bitten Sie Claude, die Unterschiede zwischen mehreren Bildern zu beschreiben, während Sie ihm einen System-Prompt geben, wie es antworten soll.

Inhalt
System	Antworten Sie nur auf Spanisch.
Benutzer	Bild 1: [Bild 1] Bild 2: [Bild 2] Wie unterscheiden sich diese Bilder?

Hier ist der entsprechende API-Aufruf mit dem Claude Sonnet 3.7 Modell.

Python
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    system="Antworten Sie nur auf Spanisch.",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Bild 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Bild 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image2_media_type,
                        "data": image2_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Wie unterscheiden sich diese Bilder?"
                }
            ],
        }
    ],
)

Python
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    system="Antworten Sie nur auf Spanisch.",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Bild 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Bild 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image2_media_type,
                        "data": image2_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Wie unterscheiden sich diese Bilder?"
                }
            ],
        }
    ],
)

Python
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    system="Antworten Sie nur auf Spanisch.",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Bild 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg",
                    },
                },
                {
                    "type": "text",
                    "text": "Bild 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg",
                    },
                },
                {
                    "type": "text",
                    "text": "Wie unterscheiden sich diese Bilder?"
                }
            ],
        }
    ],
)

Beispiel: Vier Bilder über zwei Gesprächsrunden

Claudes Vision-Fähigkeiten glänzen in multimodalen Gesprächen, die Bilder und Text mischen. Sie können ausgedehnte Hin- und Her-Austausche mit Claude haben und jederzeit neue Bilder oder Nachfragen hinzufügen. Dies ermöglicht leistungsstarke Arbeitsabläufe für iterative Bildanalyse, Vergleiche oder die Kombination von Visuellem mit anderem Wissen.

Bitten Sie Claude, zwei Bilder zu kontrastieren, dann stellen Sie eine Nachfrage, die die ersten Bilder mit zwei neuen Bildern vergleicht.

Rolle	Inhalt
Benutzer	Bild 1: [Bild 1] Bild 2: [Bild 2] Wie unterscheiden sich diese Bilder?
Assistent	[Claudes Antwort]
Benutzer	Bild 1: [Bild 3] Bild 2: [Bild 4] Sind diese Bilder ähnlich zu den ersten beiden?
Assistent	[Claudes Antwort]

Bei der Verwendung der API fügen Sie einfach neue Bilder in das Array von Messages in der user Rolle als Teil einer standardmäßigen mehrrundigen Gesprächs Struktur ein.

Einschränkungen

Während Claudes Bildverständnisfähigkeiten hochmodern sind, gibt es einige Einschränkungen, die Sie beachten sollten:

Personenidentifikation: Claude kann nicht verwendet werden, um Personen in Bildern zu identifizieren (d.h. zu benennen) und wird sich weigern, dies zu tun.
Genauigkeit: Claude kann halluzinieren oder Fehler machen bei der Interpretation von Bildern niedriger Qualität, gedrehten oder sehr kleinen Bildern unter 200 Pixeln.
Räumliches Denken: Claudes räumliche Denkfähigkeiten sind begrenzt. Es kann Schwierigkeiten mit Aufgaben haben, die präzise Lokalisierung oder Layouts erfordern, wie das Lesen eines analogen Zifferblatts oder die Beschreibung exakter Positionen von Schachfiguren.
Zählen: Claude kann ungefähre Anzahlen von Objekten in einem Bild geben, ist aber möglicherweise nicht immer präzise genau, besonders bei großen Mengen kleiner Objekte.
KI-generierte Bilder: Claude weiß nicht, ob ein Bild KI-generiert ist und kann falsch liegen, wenn gefragt. Verlassen Sie sich nicht darauf, dass es gefälschte oder synthetische Bilder erkennt.
Unangemessene Inhalte: Claude wird keine unangemessenen oder expliziten Bilder verarbeiten, die gegen unsere Nutzungsrichtlinien verstoßen.
Gesundheitsanwendungen: Während Claude allgemeine medizinische Bilder analysieren kann, ist es nicht darauf ausgelegt, komplexe diagnostische Scans wie CTs oder MRTs zu interpretieren. Claudes Ausgaben sollten nicht als Ersatz für professionelle medizinische Beratung oder Diagnose betrachtet werden.

Überprüfen und verifizieren Sie immer sorgfältig Claudes Bildinterpretationen, besonders für kritische Anwendungsfälle. Verwenden Sie Claude nicht für Aufgaben, die perfekte Präzision oder sensible Bildanalyse ohne menschliche Aufsicht erfordern.

FAQ

Welche Bilddateitypen unterstützt Claude?

Kann Claude Bild-URLs lesen?

Ja, Claude kann jetzt Bilder von URLs mit unseren URL-Bildquellblöcken in der API verarbeiten. Verwenden Sie einfach den “url” Quelltyp anstelle von “base64” in Ihren API-Anfragen. Beispiel:

{
  "type": "image",
  "source": {
    "type": "url",
    "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
  }
}

Gibt es eine Begrenzung für die Bilddateigröße, die ich hochladen kann?

Wie viele Bilder kann ich in eine Anfrage einschließen?

Liest Claude Bild-Metadaten?

Kann ich Bilder löschen, die ich hochgeladen habe?

Wo finde ich Details zum Datenschutz für Bild-Uploads?

Was ist, wenn Claudes Bildinterpretation falsch erscheint?

Kann Claude Bilder generieren oder bearbeiten?

Tiefer in Vision eintauchen

Bereit, mit dem Erstellen mit Bildern mit Claude zu beginnen? Hier sind einige hilfreiche Ressourcen:

Multimodales Kochbuch: Dieses Kochbuch hat Tipps zum Einstieg mit Bildern und bewährte Praktiken, um die höchste Qualitätsleistung mit Bildern sicherzustellen. Sehen Sie, wie Sie Claude effektiv mit Bildern prompten können, um Aufgaben wie Interpretieren und Analysieren von Diagrammen oder Extrahieren von Inhalten aus Formularen durchzuführen.
API-Referenz: Besuchen Sie unsere Dokumentation für die Messages API, einschließlich Beispiel API-Aufrufe mit Bildern.

Wenn Sie weitere Fragen haben, wenden Sie sich gerne an unser Support-Team. Sie können auch unserer Entwickler-Community beitreten, um sich mit anderen Erstellern zu vernetzen und Hilfe von Anthropic-Experten zu erhalten.

Embeddings PDF-Unterstützung

On this page

Wie Sie Vision verwenden
Bevor Sie hochladen
Grundlagen und Grenzen
Bildgröße bewerten
Bildkosten berechnen
Bildqualität sicherstellen
Prompt-Beispiele
Über die Prompt-Beispiele
Base64-kodiertes Bild Beispiel
URL-basiertes Bild Beispiel
Files API Bild Beispiel
Einschränkungen
FAQ
Tiefer in Vision eintauchen

Erste Schritte

Modelle & Preise

Erfahren Sie mehr über Claude

Funktionen

Werkzeuge

Model Context Protocol (MCP)

Anwendungsfälle

Prompt Engineering

Testen & bewerten

Schutzmaßnahmen verstärken

Rechtszentrum

Wie Sie Vision verwenden

Bevor Sie hochladen

Grundlagen und Grenzen

Bildgröße bewerten

Bildkosten berechnen

Bildqualität sicherstellen

Prompt-Beispiele

Über die Prompt-Beispiele

Base64-kodiertes Bild Beispiel

URL-basiertes Bild Beispiel

Files API Bild Beispiel

Einschränkungen

FAQ

Tiefer in Vision eintauchen

Erste Schritte

Modelle & Preise

Erfahren Sie mehr über Claude

Funktionen

Werkzeuge

Model Context Protocol (MCP)

Anwendungsfälle

Prompt Engineering

Testen & bewerten

Schutzmaßnahmen verstärken

Rechtszentrum

​Wie Sie Vision verwenden

​Bevor Sie hochladen

​Grundlagen und Grenzen

​Bildgröße bewerten

​Bildkosten berechnen

​Bildqualität sicherstellen

​Prompt-Beispiele

​Über die Prompt-Beispiele

​Base64-kodiertes Bild Beispiel

​URL-basiertes Bild Beispiel

​Files API Bild Beispiel

​Einschränkungen

​FAQ

​Tiefer in Vision eintauchen

Wie Sie Vision verwenden

Bevor Sie hochladen

Grundlagen und Grenzen

Bildgröße bewerten

Bildkosten berechnen

Bildqualität sicherstellen

Prompt-Beispiele

Über die Prompt-Beispiele

Base64-kodiertes Bild Beispiel

URL-basiertes Bild Beispiel

Files API Bild Beispiel

Einschränkungen

FAQ

Tiefer in Vision eintauchen