Vision
Die Claude 3-Modellfamilie verfügt über neue Fähigkeiten im Bereich Vision, die es Claude ermöglichen, Bilder zu verstehen und zu analysieren, was spannende Möglichkeiten für die multimodale Interaktion eröffnet. Mit Claude können Sie jetzt sowohl Text- als auch Bildeingaben bereitstellen, um Ihre Konversationen zu bereichern und leistungsstarke neue Anwendungsfälle zu ermöglichen.
Vision-fähige Modelle
Sie müssen keine speziellen Versionen unserer Claude 3-Modelle verwenden, um auf Claudes Vision-Fähigkeiten zuzugreifen. Alle Claude 3-Modelle sind in der Lage, Bilder zu verstehen und zu analysieren.
Dieser Leitfaden führt Sie durch die Arbeit mit Bildern in Claude, einschließlich Best Practices, Codebeispielen und zu beachtenden Einschränkungen.
Chatten Sie jetzt mit Bildern auf claude.ai!
Erste Schritte
Derzeit können Sie Claudes Vision-Fähigkeiten auf drei Arten nutzen:
- Direkt über claude.ai im Chatfenster. Laden Sie einfach ein Bild hoch, wie Sie es bei einer Datei tun würden, oder ziehen Sie ein Bild direkt in das Fenster!
- Über unsere Console Workbench. Wenn Sie ein Modell auswählen, das Bilder akzeptiert (nur Claude 3-Modelle), erscheint oben rechts in jedem
User
-Nachrichtenblock eine Schaltfläche zum Hinzufügen von Bildern. - Per API-Anfrage - siehe Anweisungen unten.
Für diesen Leitfaden verwenden wir das Anthropic Python SDK und die folgenden Beispielvariablen. Wir rufen Beispielbilder von Wikipedia mithilfe der httpx
-Bibliothek ab, aber Sie können beliebige Bildquellen verwenden, die für Sie funktionieren.
import anthropic
import base64
import httpx
client = anthropic.Anthropic()
image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.b64encode(httpx.get(image1_url).content).decode("utf-8")
image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.b64encode(httpx.get(image2_url).content).decode("utf-8")
Um Bilder bei einer API-Anfrage zu verwenden, können Sie Claude Bilder als Base64-kodiertes Bild in image
-Inhaltsblöcken bereitstellen. Hier ist ein einfaches Beispiel in Python, das zeigt, wie man ein Base64-kodiertes Bild in eine Messages API-Anfrage einbindet:
Python
message = client.messages.create(
model="claude-3-opus-20240229",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": image1_media_type,
"data": image1_data,
},
},
{
"type": "text",
"text": "Beschreibe dieses Bild."
}
],
}
],
)
print(message)
Unterstützte Bildformate sind JPEG, PNG, GIF und WebP. Weitere Beispielcodes und Parameterdetails finden Sie unter Messages API-Beispiele.
Bildgröße
Für eine optimale Leistung empfehlen wir, Ihre Bilder vor dem Hochladen zu verkleinern, wenn sie wahrscheinlich die Größen- oder Token-Limits überschreiten. Wenn die lange Kante Ihres Bildes mehr als 1568 Pixel beträgt oder Ihr Bild mehr als ~1600 Token enthält, wird es zunächst unter Beibehaltung des Seitenverhältnisses verkleinert, bis es innerhalb der Größenbeschränkungen liegt. Wenn Ihr Eingabebild zu groß ist und verkleinert werden muss, erhöht sich die Latenz der Zeit bis zum ersten Token, ohne dass Sie eine zusätzliche Modellleistung erhalten. Sehr kleine Bilder unter 200 Pixeln an einer beliebigen Kante können zu einer verminderten Leistung führen.
Wenn Sie die Zeit bis zum ersten Token verbessern möchten, empfehlen wir, Ihre Bilder auf nicht mehr als 1,15 Megapixel (und innerhalb von 1568 Pixeln in beiden Dimensionen) zu verkleinern.
Hier ist eine Tabelle mit den maximalen Bildgrößen, die von unserer API akzeptiert werden und die für gängige Seitenverhältnisse nicht verkleinert werden. Alle diese Bilder entsprechen ungefähr ~1600 Token und ~$4,80/1000 Bilder (unter der Annahme der Verwendung von Claude 3 Sonnet):
Seitenverhältnis | Bildgröße |
---|---|
1:1 | 1092x1092 px |
3:4 | 951x1268 px |
2:3 | 896x1344 px |
9:16 | 819x1456 px |
1:2 | 784x1568 px |
Best Practices für Bilder
Beachten Sie bei der Bereitstellung von Bildern für Claude die folgenden Richtlinien für optimale Ergebnisse:
- Bildklarheit: Stellen Sie sicher, dass Ihre Bilder klar und nicht zu verschwommen oder verpixelt sind. Claude kann Schwierigkeiten haben, unklare oder qualitativ minderwertige Bilder genau zu interpretieren.
- Bildplatzierung: Genau wie bei der Dokument-Abfrage-Platzierung funktioniert Claude am besten, wenn Bilder vor dem Text stehen. Bilder, die nach dem Text oder interpoliert mit Text platziert werden, funktionieren immer noch gut, aber wenn Ihr Anwendungsfall es zulässt, empfehlen wir eine Bild-dann-Text-Struktur. Weitere Details finden Sie unter Vision-Prompting-Tipps.
- Text: Wenn Ihr Bild wichtigen Text enthält, stellen Sie sicher, dass er lesbar und nicht zu klein ist. Vermeiden Sie jedoch das Zuschneiden wichtiger visueller Kontexte, nur um den Text zu vergrößern.
- Mehrere Bilder: Sie können mehrere Bilder in einer einzigen Anfrage einbinden (bis zu 5 für claude.ai und 20 für API-Anfragen). Claude analysiert alle bereitgestellten Bilder bei der Formulierung seiner Antwort. Dies kann hilfreich sein, um Bilder zu vergleichen oder zu kontrastieren.
Weitere Details und Richtlinien finden Sie unter Einschränkungen.
Prompting-Tipps
Viele der Prompting-Techniken, die für textbasierte Interaktionen mit Claude gut funktionieren, können auch auf bildbasierte Prompts angewendet werden. In unserem multimodalen Kochbuch finden Sie eine Anleitung zu Bildverarbeitungstechniken und Anwendungsfällen, einschließlich begleitender Prompting-Techniken und -Strategien.
Nachfolgend finden Sie einige Beispiele für Best-Practice-Prompt-Strukturen mit Bildern. Im Allgemeinen ist es am besten, Bilder früher im Prompt zu platzieren als Fragen dazu oder Anweisungen für Aufgaben, die sie verwenden, und in Situationen, in denen es mehrere Bilder gibt, jedes Bild mit Bild 1:
und Bild 2:
usw. einzuführen. Sie benötigen keine Zeilenumbrüche zwischen Bildern oder zwischen Bildern und dem Prompt.
1. Beispiel: Ein Bild
Hier ist die Prompt-Struktur:
Rolle | Inhalt |
---|---|
User | [Bild] Beschreibe dieses Bild. |
Hier ist der entsprechende API-Aufruf:
message = client.messages.create(
model="claude-3-opus-20240229",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": image1_media_type,
"data": image1_data,
},
},
{
"type": "text",
"text": "Beschreibe dieses Bild."
}
],
}
],
)
2. Beispiel: Mehrere Bilder
Hier ist die Prompt-Struktur:
Rolle | Inhalt |
---|---|
User | Bild 1: [Bild 1] Bild 2: [Bild 2] Wie unterscheiden sich diese Bilder? |
Hier ist der entsprechende API-Aufruf:
message = client.messages.create(
model="claude-3-opus-20240229",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Bild 1:"
},
{
"type": "image",
"source": {
"type": "base64",
"media_type": image1_media_type,
"data": image1_data,
},
},
{
"type": "text",
"text": "Bild 2:"
},
{
"type": "image",
"source": {
"type": "base64",
"media_type": image2_media_type,
"data": image2_data,
},
},
{
"type": "text",
"text": "Wie unterscheiden sich diese Bilder?"
}
],
}
],
)
3. Beispiel: Mehrere Bilder mit einem System-Prompt
Hier ist die Prompt-Struktur:
Inhalt | |
---|---|
System | Antworte nur auf Spanisch. |
User | Bild 1: [Bild 1] Bild 2: [Bild 2] Wie unterscheiden sich diese Bilder? |
Hier ist der entsprechende API-Aufruf:
message = client.messages.create(
model="claude-3-opus-20240229",
max_tokens=1024,
system="Antworte nur auf Spanisch.",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Bild 1:"
},
{
"type": "image",
"source": {
"type": "base64",
"media_type": image1_media_type,
"data": image1_data,
},
},
{
"type": "text",
"text": "Bild 2:"
},
{
"type": "image",
"source": {
"type": "base64",
"media_type": image2_media_type,
"data": image2_data,
},
},
{
"type": "text",
"text": "Wie unterscheiden sich diese Bilder?"
}
],
}
],
)
4. Beispiel: Vier Bilder über zwei Gesprächsrunden
Claudes Vision-Fähigkeiten kommen in multimodalen Konversationen, die sowohl Bilder als auch Text mischen, wirklich zur Geltung. Sie können ausgedehnte Hin- und Her-Gespräche mit Claude führen und jederzeit neue Bilder oder Folgefragen hinzufügen. Dies ermöglicht leistungsstarke Workflows für die iterative Bildanalyse, den Vergleich oder die Kombination von Bildern mit anderem Wissen.
Hier ist ein Beispiel für eine Prompt-Struktur:
Rolle | Inhalt |
---|---|
User | Bild 1: [Bild 1] Bild 2: [Bild 2] Wie unterscheiden sich diese Bilder? |
Assistant | [Claudes Antwort] |
User | Bild 1: [Bild 3] Bild 2: [Bild 4] Sind diese Bilder ähnlich wie die ersten beiden? |
Assistant | [Claudes Antwort] |
Bei Verwendung der API fügen Sie einfach neue Bilder in das Array von Messages in der Rolle user
als Teil einer beliebigen Standardstruktur für Mehrfach-Konversationen ein.
Bildkosten
Jedes Bild, das Sie in eine Anfrage an Claude einbinden, zählt zu Ihrem Token-Verbrauch. Um die ungefähren Kosten zu berechnen, multiplizieren Sie die ungefähre Anzahl der Bild-Token mit dem Preis pro Token des von Ihnen verwendeten Modells. Details zur Modellpreisgestaltung finden Sie auf unserer Preisseite.
Unter der Annahme, dass Ihr Bild nicht verkleinert werden muss, können Sie die Anzahl der verwendeten Token mit diesem einfachen Algorithmus abschätzen:
Tokens = (Breite px * Höhe px)/750
Hier sind einige Beispiele für die ungefähre Tokenisierung und Kosten für verschiedene Bildgrößen innerhalb der Größenbeschränkungen unserer API, unter der Annahme der Verwendung von Claude 3 Sonnet zu $3 pro Million Eingabe-Token:
Bildgröße | Anzahl Token | Kosten / Bild | Kosten / 1000 Bilder |
---|---|---|---|
200x200 px(0,04 Megapixel) | ~54 | ~$0,00016 | ~$0,16 |
1000x1000 px(1 Megapixel) | ~1334 | ~$0,004 | ~$4,00 |
1092x1092 px(1,19 Megapixel) | ~1590 | ~$0,0048 | ~$4,80 |
Einschränkungen
Obwohl Claudes Fähigkeiten zum Bildverständnis hochmodern sind, gibt es einige Einschränkungen, die Sie beachten sollten:
- Personenidentifikation: Claude darf nicht verwendet werden, um Personen auf Bildern zu identifizieren (d. h. zu benennen) und wird sich weigern, dies zu tun.
- Genauigkeit: Claude kann bei der Interpretation von Bildern mit geringer Qualität, gedrehten oder sehr kleinen Bildern unter 200 Pixeln halluzinieren oder Fehler machen.
- Räumliches Denken: Claudes Fähigkeiten zum räumlichen Denken sind begrenzt. Es kann Schwierigkeiten bei Aufgaben haben, die eine präzise Lokalisierung oder Anordnung erfordern, wie z. B. das Ablesen eines analogen Zifferblatts oder die Beschreibung der genauen Positionen von Schachfiguren.
- Zählen: Claude kann ungefähre Zählungen von Objekten in einem Bild angeben, ist aber möglicherweise nicht immer genau, insbesondere bei einer großen Anzahl kleiner Objekte.
- KI-generierte Bilder: Claude weiß nicht, ob ein Bild KI-generiert ist und kann sich irren, wenn es danach gefragt wird. Verlassen Sie sich nicht darauf, gefälschte oder synthetische Bilder zu erkennen.
- Unangemessene Inhalte: Claude wird keine unangemessenen oder expliziten Bilder verarbeiten, die gegen unsere Nutzungsbedingungen verstoßen.
- Anwendungen im Gesundheitswesen: Während Claude allgemeine medizinische Bilder analysieren kann, ist es nicht dafür ausgelegt, komplexe diagnostische Scans wie CTs oder MRTs zu interpretieren. Claudes Ausgaben sollten nicht als Ersatz für professionelle medizinische Beratung oder Diagnose angesehen werden.
Überprüfen Sie Claudes Bildinterpretationen immer sorgfältig, insbesondere für Anwendungsfälle mit hohem Risiko. Verwenden Sie Claude nicht für Aufgaben, die eine perfekte Präzision oder eine sensible Bildanalyse erfordern, ohne menschliche Aufsicht.
FAQ
Welche Bilddateitypen unterstützt Claude?
Claude unterstützt derzeit die Bildformate JPEG, PNG, GIF und WebP, insbesondere image/jpeg
, image/png
, image/gif
und image/webp
.
Kann Claude Bild-URLs lesen?
Claude kann auf keiner Oberfläche Bild-URLs lesen, auch nicht auf claude.ai. Unsere API unterstützt derzeit nicht das Hinzufügen von URLs in den Blöcken text
oder image
. Das Hinzufügen von Bild-URLs (oder URLs jeglicher Art) im text
-Block kann dazu führen, dass Claude halluziniert, da Claude derzeit nicht in der Lage ist, Informationen von dieser URL abzurufen.
Gibt es eine Begrenzung für die Größe der Bilddatei, die ich hochladen kann?
Ja, die maximal zulässige Bilddateigröße beträgt 5 MB pro Bild (10 MB pro Bild auf claude.ai). Bilder, die größer als 5 MB sind, werden abgelehnt und geben bei Verwendung unserer API einen Fehler zurück.
Wie viele Bilder kann ich in einer Anfrage einbinden?
Sie können bis zu 20 Bilder in einer einzigen Anfrage über die Messages API einbinden. Auf claude.ai können Sie bis zu 5 Bilder pro Runde einbinden. Bildzahlen über diesem Limit werden abgelehnt und geben bei Verwendung unserer API einen Fehler zurück.
Liest Claude Bild-Metadaten?
Nein, Claude analysiert oder empfängt keine Metadaten von an ihn übergebenen Bildern.
Kann ich hochgeladene Bilder löschen?
Nein. Darüber hinaus sind Bild-Uploads ephemer und werden nicht über die Dauer der API-Anfrage hinaus gespeichert. Hochgeladene Bilder werden automatisch gelöscht, nachdem sie verarbeitet wurden.
Wo finde ich weitere Details zum Datenschutz und zur Sicherheit für Bild-Uploads?
Informationen darüber, wie wir mit hochgeladenen Bildern und anderen Daten umgehen, finden Sie auf unserer Seite Datenschutzrichtlinie. Wir verwenden hochgeladene Bilder nicht, um unsere Modelle zu trainieren.
Was soll ich tun, wenn Claudes Bildinterpretation falsch zu sein scheint?
Wenn Sie von Claude eine Bildinterpretation erhalten, die falsch zu sein scheint, überprüfen Sie zunächst, ob das Bild klar, von hoher Qualität und korrekt ausgerichtet ist. Wenn das Problem weiterhin besteht, versuchen Sie, die Ergebnisse durch den Einsatz von Prompt-Engineering-Techniken zu verbessern. Wenn das Problem nicht behoben werden kann, lassen Sie es uns bitte wissen, indem Sie die betreffende Ausgabe direkt in claude.ai über die Daumen-hoch/runter-Schnittstelle markieren oder unser Support-Team kontaktieren. Ihr Feedback hilft uns, uns zu verbessern!
Kann Claude Bilder generieren, produzieren, bearbeiten, manipulieren oder erstellen?
Nein, Claude ist nur ein Modell zum Bildverständnis. Es kann Bilder interpretieren und analysieren, aber keine Bilder generieren, produzieren, bearbeiten, manipulieren oder erstellen.
Tauchen Sie tiefer in Vision ein
Sind Sie bereit, mit Bildern mit Claude zu arbeiten? Hier sind einige hilfreiche Ressourcen:
- Multimodales Kochbuch: Dieses Kochbuch enthält Tipps zum Einstieg in Bilder und Best-Practice-Techniken, um die höchste Leistungsqualität mit Bildern zu gewährleisten. Sehen Sie, wie Sie Claude effektiv mit Bildern auffordern können, um Aufgaben wie das Interpretieren und Analysieren von Diagrammen oder das Extrahieren von Inhalten aus Formularen auszuführen.
- API-Referenz: Besuchen Sie unsere Dokumentation für die Messages API, einschließlich Beispiel-API-Aufrufe mit Bildern.
Wenn Sie weitere Fragen haben, wenden Sie sich gerne an unser Support-Team. Sie können auch unserer Entwickler-Community beitreten, um sich mit anderen Entwicklern zu vernetzen und Hilfe von Anthropic-Experten zu erhalten.
Wir sind gespannt, was Sie mit Claudes leistungsstarken neuen Vision-Fähigkeiten erschaffen werden!