Wir haben zwei Arten von Limits:

  1. Ausgabenlimits setzen maximale monatliche Kosten fest, die eine Organisation für die API-Nutzung verursachen kann.
  2. Ratenlimits setzen die maximale Anzahl von API-Anfragen fest, die eine Organisation über einen definierten Zeitraum stellen kann.

Wir setzen service-konfigurierte Limits auf Organisationsebene durch, aber Sie können auch benutzer-konfigurierbare Limits für die Workspaces Ihrer Organisation festlegen.

Diese Limits gelten sowohl für Standard- als auch für Priority Tier-Nutzung. Für weitere Informationen über Priority Tier, das erweiterte Service-Level im Austausch für zugesagte Ausgaben bietet, siehe Service Tiers.

Über unsere Limits

  • Limits sind darauf ausgelegt, API-Missbrauch zu verhindern und gleichzeitig die Auswirkungen auf gängige Kundennutzungsmuster zu minimieren.
  • Limits werden durch Nutzungsstufen definiert, wobei jede Stufe mit einem anderen Satz von Ausgaben- und Ratenlimits verbunden ist.
  • Ihre Organisation wird automatisch Stufen erhöhen, wenn Sie bestimmte Schwellenwerte bei der Nutzung der API erreichen. Limits werden auf Organisationsebene festgelegt. Sie können die Limits Ihrer Organisation auf der Limits-Seite in der Anthropic Console einsehen.
  • Sie können Ratenlimits über kürzere Zeitintervalle erreichen. Zum Beispiel kann eine Rate von 60 Anfragen pro Minute (RPM) als 1 Anfrage pro Sekunde durchgesetzt werden. Kurze Anfragenschübe mit hohem Volumen können das Ratenlimit überschreiten und zu Ratenlimit-Fehlern führen.
  • Die unten aufgeführten Limits sind unsere Standard-Stufen-Limits. Wenn Sie höhere, benutzerdefinierte Limits oder Priority Tier für erweiterte Service-Level suchen, kontaktieren Sie den Vertrieb über die Anthropic Console.
  • Wir verwenden den Token-Bucket-Algorithmus für die Ratenbegrenzung. Das bedeutet, dass Ihre Kapazität kontinuierlich bis zu Ihrem maximalen Limit aufgefüllt wird, anstatt in festen Intervallen zurückgesetzt zu werden.
  • Alle hier beschriebenen Limits stellen maximal erlaubte Nutzung dar, nicht garantierte Mindestmengen. Diese Limits sollen unbeabsichtigte Überausgaben reduzieren und eine faire Verteilung der Ressourcen unter den Benutzern gewährleisten.

Ausgabenlimits

Jede Nutzungsstufe hat ein Limit dafür, wie viel Sie für die API in jedem Kalendermonat ausgeben können. Sobald Sie das Ausgabenlimit Ihrer Stufe erreichen, müssen Sie, bis Sie sich für die nächste Stufe qualifizieren, bis zum nächsten Monat warten, um die API wieder nutzen zu können.

Um sich für die nächste Stufe zu qualifizieren, müssen Sie eine Einzahlungsanforderung erfüllen. Um das Risiko einer Überfinanzierung Ihres Kontos zu minimieren, können Sie nicht mehr als Ihr monatliches Ausgabenlimit einzahlen.

Anforderungen zum Stufenaufstieg

NutzungsstufeGuthaben-KaufMax. Nutzung pro Monat
Stufe 1$5$100
Stufe 2$40$500
Stufe 3$200$1.000
Stufe 4$400$5.000
Monatliche RechnungsstellungN/AN/A

Ratenlimits

Unsere Ratenlimits für die Messages API werden in Anfragen pro Minute (RPM), Input-Token pro Minute (ITPM) und Output-Token pro Minute (OTPM) für jede Modellklasse gemessen. Wenn Sie eines der Ratenlimits überschreiten, erhalten Sie einen 429-Fehler, der beschreibt, welches Ratenlimit überschritten wurde, zusammen mit einem retry-after-Header, der angibt, wie lange Sie warten müssen.

ITPM-Ratenlimits werden zu Beginn jeder Anfrage geschätzt, und die Schätzung wird während der Anfrage angepasst, um die tatsächliche Anzahl der verwendeten Input-Token widerzuspiegeln. Die endgültige Anpassung zählt input_tokens und cache_creation_input_tokens zu den ITPM-Ratenlimits, während cache_read_input_tokens nicht gezählt werden (obwohl sie trotzdem abgerechnet werden). In einigen Fällen werden cache_read_input_tokens zu den ITPM-Ratenlimits gezählt.

OTPM-Ratenlimits werden basierend auf max_tokens zu Beginn jeder Anfrage geschätzt, und die Schätzung wird am Ende der Anfrage angepasst, um die tatsächliche Anzahl der verwendeten Output-Token widerzuspiegeln. Wenn Sie OTPM-Limits früher als erwartet erreichen, versuchen Sie, max_tokens zu reduzieren, um die Größe Ihrer Vervollständigungen besser zu approximieren.

Ratenlimits werden separat für jedes Modell angewendet; daher können Sie verschiedene Modelle bis zu ihren jeweiligen Limits gleichzeitig verwenden. Sie können Ihre aktuellen Ratenlimits und das Verhalten in der Anthropic Console überprüfen.

Für lange Kontext-Anfragen (>200K Token) bei Verwendung des context-1m-2025-08-07 Beta-Headers mit Claude Sonnet 4 gelten separate Ratenlimits. Siehe Lange Kontext-Ratenlimits unten.

ModellMaximale Anfragen pro Minute (RPM)Maximale Input-Token pro Minute (ITPM)Maximale Output-Token pro Minute (OTPM)
Claude Opus 4.x*5030.0008.000
Claude Sonnet 45030.0008.000
Claude Sonnet 3.75020.0008.000
Claude Sonnet 3.5
2024-10-22
5040.0008.000
Claude Sonnet 3.5
2024-06-20
5040.0008.000
Claude Haiku 3.55050.00010.000
Claude Opus 35020.0004.000
Claude Sonnet 35040.0008.000
Claude Haiku 35050.00010.000

* - Das Opus 4.x Ratenlimit ist ein Gesamtlimit, das für kombinierten Traffic über sowohl Opus 4.0 als auch Opus 4.1 gilt.

† - Limit zählt cache_read_input_tokens zur ITPM-Nutzung.

Message Batches API

Die Message Batches API hat ihre eigenen Ratenlimits, die über alle Modelle hinweg geteilt werden. Diese umfassen ein Limit für Anfragen pro Minute (RPM) für alle API-Endpunkte und ein Limit für die Anzahl der Batch-Anfragen, die gleichzeitig in der Verarbeitungsqueue sein können. Eine “Batch-Anfrage” bezieht sich hier auf einen Teil einer Message Batch. Sie können eine Message Batch erstellen, die Tausende von Batch-Anfragen enthält, von denen jede zu diesem Limit zählt. Eine Batch-Anfrage wird als Teil der Verarbeitungsqueue betrachtet, wenn sie noch nicht erfolgreich vom Modell verarbeitet wurde.

Maximale Anfragen pro Minute (RPM)Maximale Batch-Anfragen in VerarbeitungsqueueMaximale Batch-Anfragen pro Batch
50100.000100.000

Lange Kontext-Ratenlimits

Bei der Verwendung von Claude Sonnet 4 mit dem aktivierten 1M Token-Kontextfenster gelten die folgenden dedizierten Ratenlimits für Anfragen, die 200K Token überschreiten.

Das 1M Token-Kontextfenster ist derzeit in der Beta für Organisationen in Nutzungsstufe 4 und Organisationen mit benutzerdefinierten Ratenlimits. Das 1M Token-Kontextfenster ist nur für Claude Sonnet 4 verfügbar.

Maximale Input-Token pro Minute (ITPM)Maximale Output-Token pro Minute (OTPM)
500.000100.000

Um auf das vollständige 1M Token-Kontextfenster mit einem 500K ITPM-Ratenlimit zuzugreifen, können Sie Prompt Caching verwenden.

Niedrigere Limits für Workspaces festlegen

Um Workspaces in Ihrer Organisation vor potenziellem Überverbrauch zu schützen, können Sie benutzerdefinierte Ausgaben- und Ratenlimits pro Workspace festlegen.

Beispiel: Wenn das Limit Ihrer Organisation 40.000 Input-Token pro Minute und 8.000 Output-Token pro Minute beträgt, könnten Sie einen Workspace auf 30.000 Token insgesamt pro Minute begrenzen. Dies schützt andere Workspaces vor potenziellem Überverbrauch und gewährleistet eine gerechtere Verteilung der Ressourcen in Ihrer Organisation. Die verbleibenden ungenutzten Token pro Minute (oder mehr, wenn dieser Workspace das Limit nicht nutzt) stehen dann anderen Workspaces zur Verfügung.

Hinweis:

  • Sie können keine Limits für den Standard-Workspace festlegen.
  • Wenn nicht festgelegt, entsprechen Workspace-Limits dem Limit der Organisation.
  • Organisationsweite Limits gelten immer, auch wenn Workspace-Limits zusammen mehr ergeben.
  • Unterstützung für Input- und Output-Token-Limits wird in Zukunft zu Workspaces hinzugefügt.

Response-Header

Die API-Antwort enthält Header, die Ihnen das durchgesetzte Ratenlimit, die aktuelle Nutzung und wann das Limit zurückgesetzt wird, anzeigen.

Die folgenden Header werden zurückgegeben:

HeaderBeschreibung
retry-afterDie Anzahl der Sekunden, die Sie warten müssen, bis Sie die Anfrage wiederholen können. Frühere Wiederholungen werden fehlschlagen.
anthropic-ratelimit-requests-limitDie maximale Anzahl von Anfragen, die innerhalb einer Ratenlimit-Periode erlaubt sind.
anthropic-ratelimit-requests-remainingDie Anzahl der verbleibenden Anfragen, bevor Sie ratenlimitiert werden.
anthropic-ratelimit-requests-resetDie Zeit, wann das Anfragen-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format.
anthropic-ratelimit-tokens-limitDie maximale Anzahl von Token, die innerhalb einer Ratenlimit-Periode erlaubt sind.
anthropic-ratelimit-tokens-remainingDie Anzahl der verbleibenden Token (auf das nächste Tausend gerundet), bevor Sie ratenlimitiert werden.
anthropic-ratelimit-tokens-resetDie Zeit, wann das Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format.
anthropic-ratelimit-input-tokens-limitDie maximale Anzahl von Input-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind.
anthropic-ratelimit-input-tokens-remainingDie Anzahl der verbleibenden Input-Token (auf das nächste Tausend gerundet), bevor Sie ratenlimitiert werden.
anthropic-ratelimit-input-tokens-resetDie Zeit, wann das Input-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format.
anthropic-ratelimit-output-tokens-limitDie maximale Anzahl von Output-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind.
anthropic-ratelimit-output-tokens-remainingDie Anzahl der verbleibenden Output-Token (auf das nächste Tausend gerundet), bevor Sie ratenlimitiert werden.
anthropic-ratelimit-output-tokens-resetDie Zeit, wann das Output-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format.
anthropic-priority-input-tokens-limitDie maximale Anzahl von Priority Tier Input-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind. (Nur Priority Tier)
anthropic-priority-input-tokens-remainingDie Anzahl der verbleibenden Priority Tier Input-Token (auf das nächste Tausend gerundet), bevor Sie ratenlimitiert werden. (Nur Priority Tier)
anthropic-priority-input-tokens-resetDie Zeit, wann das Priority Tier Input-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format. (Nur Priority Tier)
anthropic-priority-output-tokens-limitDie maximale Anzahl von Priority Tier Output-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind. (Nur Priority Tier)
anthropic-priority-output-tokens-remainingDie Anzahl der verbleibenden Priority Tier Output-Token (auf das nächste Tausend gerundet), bevor Sie ratenlimitiert werden. (Nur Priority Tier)
anthropic-priority-output-tokens-resetDie Zeit, wann das Priority Tier Output-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format. (Nur Priority Tier)

Die anthropic-ratelimit-tokens-*-Header zeigen die Werte für das restriktivste Limit an, das derzeit in Kraft ist. Wenn Sie beispielsweise das Workspace-Token-Limit pro Minute überschritten haben, enthalten die Header die Workspace-Token-Ratenlimit-Werte pro Minute. Wenn Workspace-Limits nicht gelten, geben die Header die verbleibenden Token insgesamt zurück, wobei die Gesamtsumme die Summe aus Input- und Output-Token ist. Dieser Ansatz stellt sicher, dass Sie Einblick in die relevanteste Einschränkung Ihrer aktuellen API-Nutzung haben.