Diese Anleitung beschreibt, wie man mit Bildern in Claude arbeitet, einschließlich Best Practices, Code-Beispielen und zu beachtenden Einschränkungen.


Wie man Vision nutzt

Nutzen Sie Claudes Vision-Fähigkeiten über:

  • claude.ai. Laden Sie ein Bild wie eine Datei hoch oder ziehen Sie ein Bild direkt in das Chat-Fenster.
  • Die Console Workbench. Wenn Sie ein Modell auswählen, das Bilder akzeptiert (nur Claude 3 Modelle), erscheint oben rechts in jedem User-Nachrichtenblock eine Schaltfläche zum Hinzufügen von Bildern.
  • API-Anfrage. Siehe die Beispiele in dieser Anleitung.

Vor dem Hochladen

Grundlagen und Grenzen

Sie können mehrere Bilder in einer einzelnen Anfrage einbinden (bis zu 20 für claude.ai und 100 für API-Anfragen). Claude wird alle bereitgestellten Bilder analysieren, wenn es seine Antwort formuliert. Dies kann hilfreich sein, um Bilder zu vergleichen oder gegenüberzustellen.

Wenn Sie ein Bild größer als 8000x8000 px hochladen, wird es abgelehnt. Wenn Sie mehr als 20 Bilder in einer API-Anfrage senden, liegt diese Grenze bei 2000x2000 px.

Bildgröße bewerten

Für optimale Leistung empfehlen wir, zu große Bilder vor dem Hochladen zu verkleinern. Wenn die lange Kante Ihres Bildes mehr als 1568 Pixel beträgt oder Ihr Bild mehr als ~1.600 Token umfasst, wird es zunächst unter Beibehaltung des Seitenverhältnisses verkleinert, bis es innerhalb der Größenbeschränkungen liegt.

Wenn Ihr Eingabebild zu groß ist und verkleinert werden muss, erhöht dies die Latenz der time-to-first-token, ohne dass Sie zusätzliche Modellleistung erhalten. Sehr kleine Bilder unter 200 Pixel auf einer beliebigen Kante können die Leistung beeinträchtigen.

Um die time-to-first-token zu verbessern, empfehlen wir, Bilder auf nicht mehr als 1,15 Megapixel zu verkleinern (und innerhalb von 1568 Pixeln in beiden Dimensionen).

Hier ist eine Tabelle der maximalen Bildgrößen, die von unserer API akzeptiert werden und für gängige Seitenverhältnisse nicht verkleinert werden. Mit dem Claude 3.7 Sonnet-Modell verwenden diese Bilder etwa 1.600 Token und kosten etwa $4,80/1K Bilder.

SeitenverhältnisBildgröße
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Bildkosten berechnen

Jedes Bild, das Sie in einer Anfrage an Claude einbinden, zählt zu Ihrem Token-Verbrauch. Um die ungefähren Kosten zu berechnen, multiplizieren Sie die ungefähre Anzahl der Bild-Token mit dem Token-Preis des Modells, das Sie verwenden.

Wenn Ihr Bild nicht verkleinert werden muss, können Sie die Anzahl der verwendeten Token durch diesen Algorithmus schätzen: Token = (Breite px * Höhe px)/750

Hier sind Beispiele für ungefähre Tokenisierung und Kosten für verschiedene Bildgrößen innerhalb der Größenbeschränkungen unserer API, basierend auf dem Claude 3.7 Sonnet Token-Preis von $3 pro Million Eingabe-Token:

Bildgröße# der TokenKosten / BildKosten / 1K Bilder
200x200 px(0,04 Megapixel)~54~$0,00016~$0,16
1000x1000 px(1 Megapixel)~1334~$0,004~$4,00
1092x1092 px(1,19 Megapixel)~1590~$0,0048~$4,80

Bildqualität sicherstellen

Beachten Sie beim Bereitstellen von Bildern für Claude Folgendes für beste Ergebnisse:

  • Bildformat: Verwenden Sie ein unterstütztes Bildformat: JPEG, PNG, GIF oder WebP.
  • Bildklarheit: Stellen Sie sicher, dass Bilder klar und nicht zu unscharf oder verpixelt sind.
  • Text: Wenn das Bild wichtigen Text enthält, stellen Sie sicher, dass er lesbar und nicht zu klein ist. Vermeiden Sie es, wichtigen visuellen Kontext nur zu beschneiden, um den Text zu vergrößern.

Prompt-Beispiele

Viele der Prompting-Techniken, die gut für textbasierte Interaktionen mit Claude funktionieren, können auch auf bildbasierte Prompts angewendet werden.

Diese Beispiele demonstrieren Best-Practice-Prompt-Strukturen mit Bildern.

Genau wie bei der Dokument-Abfrage-Platzierung arbeitet Claude am besten, wenn Bilder vor Fragen oder Anweisungen für Aufgaben platziert werden, die sie verwenden. Bilder, die nach Text oder zwischen Text eingefügt werden, funktionieren auch gut, aber wenn Ihr Anwendungsfall es erlaubt, empfehlen wir eine Bild-dann-Text-Struktur.

Über die Prompt-Beispiele

Die folgenden Beispiele zeigen, wie man Claudes Vision-Fähigkeiten mit verschiedenen Programmiersprachen und Ansätzen nutzt. Sie können Bilder auf zwei Arten an Claude übergeben:

  1. Als Base64-kodiertes Bild in image Content-Blöcken
  2. Als URL-Referenz zu einem online gehosteten Bild

Die Base64-Beispiel-Prompts verwenden diese Variablen:

    # Für URL-basierte Bilder können Sie die URL direkt in Ihrer JSON-Anfrage verwenden
    
    # Für Base64-kodierte Bilder müssen Sie zuerst das Bild kodieren
    # Beispiel wie man ein Bild in Base64 in bash kodiert:
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # Die kodierten Daten können nun in Ihren API-Aufrufen verwendet werden

Nachfolgend sind Beispiele, wie man Bilder in einer Messages API-Anfrage unter Verwendung von Base64-kodierten Bildern und URL-Referenzen einbindet:

Base64-kodiertes Bildbeispiel

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Beschreibe dieses Bild."
          }
        ]
      }
    ]
  }'

[Continued in next part due to length…]

Was this page helpful?