PDF-Unterstützung
Verarbeiten Sie PDFs mit Claude. Extrahieren Sie Text, analysieren Sie Diagramme und verstehen Sie visuelle Inhalte aus Ihren Dokumenten.
Sie können Claude jetzt zu jedem Text, Bildern, Diagrammen und Tabellen in PDFs befragen, die Sie bereitstellen. Einige Beispiel-Anwendungsfälle:
- Analyse von Finanzberichten und Verstehen von Diagrammen/Tabellen
- Extraktion wichtiger Informationen aus Rechtsdokumenten
- Übersetzungshilfe für Dokumente
- Umwandlung von Dokumentinformationen in strukturierte Formate
Bevor Sie beginnen
PDF-Anforderungen prüfen
Claude funktioniert mit jedem Standard-PDF. Sie sollten jedoch sicherstellen, dass Ihre Anfragegröße diese Anforderungen erfüllt, wenn Sie PDF-Unterstützung verwenden:
Anforderung | Limit |
---|---|
Maximale Anfragegröße | 32MB |
Maximale Seiten pro Anfrage | 100 |
Format | Standard-PDF (keine Passwörter/Verschlüsselung) |
Bitte beachten Sie, dass beide Limits für die gesamte Anfrage-Payload gelten, einschließlich aller anderen Inhalte, die zusammen mit PDFs gesendet werden.
Da die PDF-Unterstützung auf Claudes Vision-Fähigkeiten basiert, unterliegt sie denselben Einschränkungen und Überlegungen wie andere Vision-Aufgaben.
Unterstützte Plattformen und Modelle
PDF-Unterstützung wird derzeit über direkten API-Zugang und Google Vertex AI unterstützt auf:
- Claude Opus 4 (
claude-opus-4-20250514
) - Claude Sonnet 4 (
claude-sonnet-4-20250514
) - Claude Sonnet 3.7 (
claude-3-7-sonnet-20250219
) - Claude Sonnet 3.5 Modelle (
claude-3-5-sonnet-20241022
,claude-3-5-sonnet-20240620
) - Claude Haiku 3.5 (
claude-3-5-haiku-20241022
)
PDF-Unterstützung ist jetzt auf Amazon Bedrock mit folgenden Überlegungen verfügbar:
Amazon Bedrock PDF-Unterstützung
Bei der Verwendung von PDF-Unterstützung über Amazon Bedrocks Converse API gibt es zwei verschiedene Dokumentverarbeitungsmodi:
Wichtig: Um auf Claudes vollständige visuelle PDF-Verständnisfähigkeiten in der Converse API zuzugreifen, müssen Sie Zitate aktivieren. Ohne aktivierte Zitate fällt die API auf nur grundlegende Textextraktion zurück. Erfahren Sie mehr über Arbeiten mit Zitaten.
Dokumentverarbeitungsmodi
-
Converse Document Chat (Ursprünglicher Modus - Nur Textextraktion)
- Bietet grundlegende Textextraktion aus PDFs
- Kann keine Bilder, Diagramme oder visuelle Layouts in PDFs analysieren
- Verwendet etwa 1.000 Token für ein 3-seitiges PDF
- Wird automatisch verwendet, wenn Zitate nicht aktiviert sind
-
Claude PDF Chat (Neuer Modus - Vollständiges visuelles Verständnis)
- Bietet vollständige visuelle Analyse von PDFs
- Kann Diagramme, Grafiken, Bilder und visuelle Layouts verstehen und analysieren
- Verarbeitet jede Seite sowohl als Text als auch als Bild für umfassendes Verständnis
- Verwendet etwa 7.000 Token für ein 3-seitiges PDF
- Erfordert aktivierte Zitate in der Converse API
Wichtige Einschränkungen
- Converse API: Visuelle PDF-Analyse erfordert aktivierte Zitate. Es gibt derzeit keine Option, visuelle Analyse ohne Zitate zu verwenden (im Gegensatz zur InvokeModel API).
- InvokeModel API: Bietet vollständige Kontrolle über PDF-Verarbeitung ohne erzwungene Zitate.
Häufige Probleme
Wenn Kunden berichten, dass Claude keine Bilder oder Diagramme in ihren PDFs sieht, wenn sie die Converse API verwenden, müssen sie wahrscheinlich das Zitate-Flag aktivieren. Ohne es fällt Converse auf nur grundlegende Textextraktion zurück.
Dies ist eine bekannte Einschränkung der Converse API, an deren Behebung wir arbeiten. Für Anwendungen, die visuelle PDF-Analyse ohne Zitate benötigen, verwenden Sie stattdessen die InvokeModel API.
Für Nicht-PDF-Dateien wie .csv, .xlsx, .docx, .md oder .txt-Dateien siehe Arbeiten mit anderen Dateiformaten.
PDFs mit Claude verarbeiten
Ihre erste PDF-Anfrage senden
Beginnen wir mit einem einfachen Beispiel unter Verwendung der Messages API. Sie können PDFs auf drei Arten an Claude bereitstellen:
- Als URL-Verweis auf ein online gehostetes PDF
- Als base64-kodiertes PDF in
document
Content-Blöcken - Über eine
file_id
aus der Files API
Option 1: URL-basiertes PDF-Dokument
Der einfachste Ansatz ist, ein PDF direkt über eine URL zu referenzieren:
Option 2: Base64-kodiertes PDF-Dokument
Wenn Sie PDFs von Ihrem lokalen System senden müssen oder wenn eine URL nicht verfügbar ist:
Option 3: Files API
Für PDFs, die Sie wiederholt verwenden werden, oder wenn Sie Kodierungs-Overhead vermeiden möchten, verwenden Sie die Files API:
Wie PDF-Unterstützung funktioniert
Wenn Sie ein PDF an Claude senden, laufen folgende Schritte ab:
Das System extrahiert die Inhalte des Dokuments.
- Das System konvertiert jede Seite des Dokuments in ein Bild.
- Der Text von jeder Seite wird extrahiert und zusammen mit dem Bild jeder Seite bereitgestellt.
Claude analysiert sowohl den Text als auch die Bilder, um das Dokument besser zu verstehen.
- Dokumente werden als Kombination aus Text und Bildern zur Analyse bereitgestellt.
- Dies ermöglicht es Benutzern, nach Einblicken in visuelle Elemente eines PDFs zu fragen, wie Diagramme, Schaubilder und andere nicht-textuelle Inhalte.
Claude antwortet und referenziert dabei die PDF-Inhalte, falls relevant.
Claude kann sowohl textuelle als auch visuelle Inhalte referenzieren, wenn es antwortet. Sie können die Leistung weiter verbessern, indem Sie PDF-Unterstützung integrieren mit:
- Prompt-Caching: Um die Leistung für wiederholte Analysen zu verbessern.
- Batch-Verarbeitung: Für hochvolumige Dokumentverarbeitung.
- Tool-Verwendung: Um spezifische Informationen aus Dokumenten für die Verwendung als Tool-Eingaben zu extrahieren.
Ihre Kosten schätzen
Die Token-Anzahl einer PDF-Datei hängt vom gesamten aus dem Dokument extrahierten Text sowie der Anzahl der Seiten ab:
- Text-Token-Kosten: Jede Seite verwendet typischerweise 1.500-3.000 Token pro Seite, abhängig von der Inhaltsdichte. Standard-API-Preise gelten ohne zusätzliche PDF-Gebühren.
- Bild-Token-Kosten: Da jede Seite in ein Bild konvertiert wird, werden dieselben bildbasierten Kostenberechnungen angewendet.
Sie können Token-Zählung verwenden, um Kosten für Ihre spezifischen PDFs zu schätzen.
PDF-Verarbeitung optimieren
Leistung verbessern
Befolgen Sie diese Best Practices für optimale Ergebnisse:
- Platzieren Sie PDFs vor Text in Ihren Anfragen
- Verwenden Sie Standard-Schriftarten
- Stellen Sie sicher, dass Text klar und lesbar ist
- Drehen Sie Seiten in die richtige aufrechte Ausrichtung
- Verwenden Sie logische Seitenzahlen (aus PDF-Viewer) in Prompts
- Teilen Sie große PDFs bei Bedarf in Chunks auf
- Aktivieren Sie Prompt-Caching für wiederholte Analysen
Ihre Implementierung skalieren
Für hochvolumige Verarbeitung betrachten Sie diese Ansätze:
Prompt-Caching verwenden
Cachen Sie PDFs, um die Leistung bei wiederholten Abfragen zu verbessern:
Dokument-Batches verarbeiten
Verwenden Sie die Message Batches API für hochvolumige Workflows: