Vision
Die Claude 3 Modellfamilie kommt mit neuen Vision-Fähigkeiten, die es Claude ermöglichen, Bilder zu verstehen und zu analysieren, was spannende Möglichkeiten für multimodale Interaktion eröffnet.
Dieser Leitfaden beschreibt, wie man mit Bildern in Claude arbeitet, einschließlich Best Practices, Codebeispielen und zu beachtenden Einschränkungen.
Wie man Vision nutzt
Nutzen Sie Claudes Vision-Fähigkeiten über:
- claude.ai. Laden Sie ein Bild wie eine Datei hoch oder ziehen Sie ein Bild direkt in das Chat-Fenster.
- Die Console Workbench. Wenn Sie ein Modell auswählen, das Bilder akzeptiert (nur Claude 3 Modelle), erscheint oben rechts in jedem User-Nachrichtenblock eine Schaltfläche zum Hinzufügen von Bildern.
- API-Anfrage. Siehe die Beispiele in diesem Leitfaden.
Vor dem Hochladen
Bildgröße bewerten
Sie können mehrere Bilder in einer einzelnen Anfrage einbinden (bis zu 5 für claude.ai und 100 für API-Anfragen). Claude wird alle bereitgestellten Bilder bei der Formulierung seiner Antwort analysieren. Dies kann hilfreich sein, um Bilder zu vergleichen oder gegenüberzustellen.
Für optimale Leistung empfehlen wir, Bilder vor dem Hochladen zu verkleinern, wenn sie die Größen- oder Token-Limits überschreiten. Wenn die lange Kante Ihres Bildes mehr als 1568 Pixel beträgt oder Ihr Bild mehr als ~1.600 Token umfasst, wird es zunächst unter Beibehaltung des Seitenverhältnisses verkleinert, bis es innerhalb der Größenlimits liegt.
Wenn Ihr Eingabebild zu groß ist und verkleinert werden muss, erhöht dies die Latenz der time-to-first-token, ohne dass Sie zusätzliche Modellleistung erhalten. Sehr kleine Bilder unter 200 Pixeln an einer beliebigen Kante können die Leistung beeinträchtigen.
Hier ist eine Tabelle der maximalen Bildgrößen, die von unserer API akzeptiert werden und für gängige Seitenverhältnisse nicht verkleinert werden. Mit dem Claude 3.5 Sonnet Modell verwenden diese Bilder etwa 1.600 Token und kosten etwa $4,80/1K Bilder.
Seitenverhältnis | Bildgröße |
---|---|
1:1 | 1092x1092 px |
3:4 | 951x1268 px |
2:3 | 896x1344 px |
9:16 | 819x1456 px |
1:2 | 784x1568 px |
Bildkosten berechnen
Jedes Bild, das Sie in einer Anfrage an Claude einbinden, zählt zu Ihrem Token-Verbrauch. Um die ungefähren Kosten zu berechnen, multiplizieren Sie die ungefähre Anzahl der Bild-Token mit dem Token-Preis des Modells, das Sie verwenden.
Wenn Ihr Bild nicht verkleinert werden muss, können Sie die Anzahl der verwendeten Token durch diesen Algorithmus schätzen: tokens = (Breite px * Höhe px)/750
Hier sind Beispiele für ungefähre Tokenisierung und Kosten für verschiedene Bildgrößen innerhalb der Größenbeschränkungen unserer API, basierend auf dem Claude 3.5 Sonnet Token-Preis von $3 pro Million Eingabe-Token:
Bildgröße | # der Token | Kosten / Bild | Kosten / 1K Bilder |
---|---|---|---|
200x200 px(0,04 Megapixel) | ~54 | ~$0,00016 | ~$0,16 |
1000x1000 px(1 Megapixel) | ~1334 | ~$0,004 | ~$4,00 |
1092x1092 px(1,19 Megapixel) | ~1590 | ~$0,0048 | ~$4,80 |
Bildqualität sicherstellen
Beachten Sie beim Bereitstellen von Bildern für Claude Folgendes für beste Ergebnisse:
- Bildformat: Verwenden Sie ein unterstütztes Bildformat: JPEG, PNG, GIF oder WebP.
- Bildklarheit: Stellen Sie sicher, dass Bilder klar und nicht zu verschwommen oder verpixelt sind.
- Text: Wenn das Bild wichtigen Text enthält, stellen Sie sicher, dass er lesbar und nicht zu klein ist. Vermeiden Sie es, wichtigen visuellen Kontext nur zur Vergrößerung des Textes wegzuschneiden.
Prompt-Beispiele
Viele der Prompting-Techniken, die gut für textbasierte Interaktionen mit Claude funktionieren, können auch auf bildbasierte Prompts angewendet werden.
Diese Beispiele demonstrieren Best-Practice-Prompt-Strukturen mit Bildern.
Über die Prompt-Beispiele
Diese Prompt-Beispiele verwenden das Anthropic Python SDK und rufen Bilder von Wikipedia mit der httpx
-Bibliothek ab. Sie können jede beliebige Bildquelle verwenden.
Die Beispiel-Prompts verwenden diese Variablen.
Um Bilder bei einer API-Anfrage zu verwenden, können Sie Claude Bilder als base64-codiertes Bild in image
-Inhaltsblöcken bereitstellen. Hier ist ein einfaches Beispiel in Python, das zeigt, wie man ein base64-codiertes Bild in eine Messages API-Anfrage einbindet:
Siehe Messages API Beispiele für weitere Codebeispiele und Parameterdetails.
Einschränkungen
Während Claudes Bildverständnisfähigkeiten hochmodern sind, gibt es einige Einschränkungen, die zu beachten sind:
- Personenidentifikation: Claude kann nicht verwendet werden, um Personen in Bildern zu identifizieren (d.h. zu benennen) und wir dies verweigern.
- Genauigkeit: Claude kann bei der Interpretation von qualitativ minderwertigen, gedrehten oder sehr kleinen Bildern unter 200 Pixeln halluzinieren oder Fehler machen.
- Räumliches Denken: Claudes räumliche Denkfähigkeiten sind begrenzt. Es kann Schwierigkeiten haben bei Aufgaben, die präzise Lokalisierung oder Layouts erfordern, wie das Lesen eines analogen Zifferblatts oder das Beschreiben exakter Positionen von Schachfiguren.
- Zählen: Claude kann ungefähre Anzahlen von Objekten in einem Bild angeben, ist aber möglicherweise nicht immer präzise genau, besonders bei großen Mengen kleiner Objekte.
- KI-generierte Bilder: Claude weiß nicht, ob ein Bild KI-generiert ist und kann sich irren, wenn danach gefragt wird. Verlassen Sie sich nicht darauf, gefälschte oder synthetische Bilder zu erkennen.
- Unangemessene Inhalte: Claude wird keine unangemessenen oder expliziten Bilder verarbeiten, die gegen unsere Acceptable Use Policy verstoßen.
- Gesundheitsanwendungen: Während Claude allgemeine medizinische Bilder analysieren kann, ist es nicht dafür ausgelegt, komplexe diagnostische Aufnahmen wie CTs oder MRTs zu interpretieren. Claudes Ausgaben sollten nicht als Ersatz für professionelle medizinische Beratung oder Diagnose betrachtet werden.
Überprüfen Sie Claudes Bildinterpretationen immer sorgfältig, besonders bei wichtigen Anwendungsfällen. Verwenden Sie Claude nicht für Aufgaben, die perfekte Präzision oder sensible Bildanalyse ohne menschliche Aufsicht erfordern.
FAQ
Tiefer eintauchen in Vision
Bereit, mit Bildern unter Verwendung von Claude zu entwickeln? Hier sind einige hilfreiche Ressourcen:
- Multimodales Cookbook: Dieses Cookbook enthält Tipps zum Einstieg mit Bildern und Best-Practice-Techniken, um die höchste Qualitätsleistung mit Bildern sicherzustellen. Sehen Sie, wie Sie Claude effektiv mit Bildern promten können, um Aufgaben wie Interpretation und Analyse von Diagrammen oder Extrahieren von Inhalten aus Formularen durchzuführen.
- API-Referenz: Besuchen Sie unsere Dokumentation für die Messages API, einschließlich Beispiel API-Aufrufe mit Bildern.
Wenn Sie weitere Fragen haben, können Sie sich gerne an unser Support-Team wenden. Sie können auch unserer Entwickler-Community beitreten, um sich mit anderen Entwicklern zu vernetzen und Hilfe von Anthropic-Experten zu erhalten.