Ratenlimits

Wir haben zwei Arten von Limits:

Ausgabenlimits setzen maximale monatliche Kosten fest, die eine Organisation für die API-Nutzung verursachen kann.
Ratenlimits setzen die maximale Anzahl von API-Anfragen fest, die eine Organisation über einen definierten Zeitraum stellen kann.

Wir setzen service-konfigurierte Limits auf Organisationsebene durch, aber Sie können auch benutzer-konfigurierbare Limits für die Workspaces Ihrer Organisation festlegen.

Diese Limits gelten sowohl für Standard- als auch für Priority Tier-Nutzung. Für weitere Informationen über Priority Tier, das erweiterte Service-Level im Austausch für zugesagte Ausgaben bietet, siehe Service Tiers.

Über unsere Limits

Limits sind darauf ausgelegt, API-Missbrauch zu verhindern und gleichzeitig die Auswirkungen auf gängige Kundennutzungsmuster zu minimieren.
Limits werden durch Nutzungsstufen definiert, wobei jede Stufe mit einem anderen Satz von Ausgaben- und Ratenlimits verbunden ist.
Ihre Organisation wird automatisch Stufen erhöhen, wenn Sie bestimmte Schwellenwerte bei der Nutzung der API erreichen. Limits werden auf Organisationsebene festgelegt. Sie können die Limits Ihrer Organisation auf der Limits-Seite in der Anthropic Console einsehen.
Sie können Ratenlimits über kürzere Zeitintervalle erreichen. Zum Beispiel kann eine Rate von 60 Anfragen pro Minute (RPM) als 1 Anfrage pro Sekunde durchgesetzt werden. Kurze Anfragenschübe mit hohem Volumen können das Ratenlimit überschreiten und zu Ratenlimit-Fehlern führen.
Die unten aufgeführten Limits sind unsere Standard-Stufen-Limits. Wenn Sie höhere, benutzerdefinierte Limits oder Priority Tier für erweiterte Service-Level suchen, kontaktieren Sie den Vertrieb über die Anthropic Console.
Wir verwenden den Token-Bucket-Algorithmus für die Ratenbegrenzung. Das bedeutet, dass Ihre Kapazität kontinuierlich bis zu Ihrem maximalen Limit aufgefüllt wird, anstatt in festen Intervallen zurückgesetzt zu werden.
Alle hier beschriebenen Limits stellen maximal erlaubte Nutzung dar, nicht garantierte Mindestmengen. Diese Limits sollen unbeabsichtigte Überausgaben reduzieren und eine faire Verteilung der Ressourcen unter den Benutzern gewährleisten.

Ausgabenlimits

Jede Nutzungsstufe hat ein Limit dafür, wie viel Sie für die API in jedem Kalendermonat ausgeben können. Sobald Sie das Ausgabenlimit Ihrer Stufe erreichen, müssen Sie, bis Sie sich für die nächste Stufe qualifizieren, bis zum nächsten Monat warten, um die API wieder nutzen zu können.

Um sich für die nächste Stufe zu qualifizieren, müssen Sie eine Einzahlungsanforderung erfüllen. Um das Risiko einer Überfinanzierung Ihres Kontos zu minimieren, können Sie nicht mehr als Ihr monatliches Ausgabenlimit einzahlen.

Anforderungen zum Stufenaufstieg

Nutzungsstufe	Guthaben-Kauf	Max. Nutzung pro Monat
Stufe 1	$5	$100
Stufe 2	$40	$500
Stufe 3	$200	$1.000
Stufe 4	$400	$5.000
Monatliche Rechnungsstellung	N/A	N/A

Unsere Ratenlimits für die Messages API werden in Anfragen pro Minute (RPM), Input-Token pro Minute (ITPM) und Output-Token pro Minute (OTPM) für jede Modellklasse gemessen. Wenn Sie eines der Ratenlimits überschreiten, erhalten Sie einen 429-Fehler, der beschreibt, welches Ratenlimit überschritten wurde, zusammen mit einem retry-after-Header, der angibt, wie lange Sie warten müssen.

ITPM-Ratenlimits werden zu Beginn jeder Anfrage geschätzt, und die Schätzung wird während der Anfrage angepasst, um die tatsächliche Anzahl der verwendeten Input-Token widerzuspiegeln. Die endgültige Anpassung zählt input_tokens und cache_creation_input_tokens zu den ITPM-Ratenlimits, während cache_read_input_tokens nicht gezählt werden (obwohl sie trotzdem abgerechnet werden). In einigen Fällen werden cache_read_input_tokens zu den ITPM-Ratenlimits gezählt.

OTPM-Ratenlimits werden basierend auf max_tokens zu Beginn jeder Anfrage geschätzt, und die Schätzung wird am Ende der Anfrage angepasst, um die tatsächliche Anzahl der verwendeten Output-Token widerzuspiegeln. Wenn Sie OTPM-Limits früher als erwartet erreichen, versuchen Sie, max_tokens zu reduzieren, um die Größe Ihrer Vervollständigungen besser zu approximieren.

Ratenlimits werden separat für jedes Modell angewendet; daher können Sie verschiedene Modelle bis zu ihren jeweiligen Limits gleichzeitig verwenden. Sie können Ihre aktuellen Ratenlimits und das Verhalten in der Anthropic Console überprüfen.

Für lange Kontext-Anfragen (>200K Token) bei Verwendung des context-1m-2025-08-07 Beta-Headers mit Claude Sonnet 4 gelten separate Ratenlimits. Siehe Lange Kontext-Ratenlimits unten.

Modell	Maximale Anfragen pro Minute (RPM)	Maximale Input-Token pro Minute (ITPM)	Maximale Output-Token pro Minute (OTPM)
Claude Opus 4.x^*	50	30.000	8.000
Claude Sonnet 4	50	30.000	8.000
Claude Sonnet 3.7	50	20.000	8.000
Claude Sonnet 3.5 2024-10-22	50	40.000^†	8.000
Claude Sonnet 3.5 2024-06-20	50	40.000^†	8.000
Claude Haiku 3.5	50	50.000^†	10.000
Claude Opus 3	50	20.000^†	4.000
Claude Sonnet 3	50	40.000^†	8.000
Claude Haiku 3	50	50.000^†	10.000

Modell	Maximale Anfragen pro Minute (RPM)	Maximale Input-Token pro Minute (ITPM)	Maximale Output-Token pro Minute (OTPM)
Claude Opus 4.x^*	50	30.000	8.000
Claude Sonnet 4	50	30.000	8.000
Claude Sonnet 3.7	50	20.000	8.000
Claude Sonnet 3.5 2024-10-22	50	40.000^†	8.000
Claude Sonnet 3.5 2024-06-20	50	40.000^†	8.000
Claude Haiku 3.5	50	50.000^†	10.000
Claude Opus 3	50	20.000^†	4.000
Claude Sonnet 3	50	40.000^†	8.000
Claude Haiku 3	50	50.000^†	10.000

Modell	Maximale Anfragen pro Minute (RPM)	Maximale Input-Token pro Minute (ITPM)	Maximale Output-Token pro Minute (OTPM)
Claude Opus 4.x^*	1.000	450.000	90.000
Claude Sonnet 4	1.000	450.000	90.000
Claude Sonnet 3.7	1.000	40.000	16.000
Claude Sonnet 3.5 2024-10-22	1.000	80.000^†	16.000
Claude Sonnet 3.5 2024-06-20	1.000	80.000^†	16.000
Claude Haiku 3.5	1.000	100.000^†	20.000
Claude Opus 3	1.000	40.000^†	8.000
Claude Sonnet 3	1.000	80.000^†	16.000
Claude Haiku 3	1.000	100.000^†	20.000

Modell	Maximale Anfragen pro Minute (RPM)	Maximale Input-Token pro Minute (ITPM)	Maximale Output-Token pro Minute (OTPM)
Claude Opus 4.x^*	2.000	800.000	160.000
Claude Sonnet 4	2.000	800.000	160.000
Claude Sonnet 3.7	2.000	80.000	32.000
Claude Sonnet 3.5 2024-10-22	2.000	160.000^†	32.000
Claude Sonnet 3.5 2024-06-20	2.000	160.000^†	32.000
Claude Haiku 3.5	2.000	200.000^†	40.000
Claude Opus 3	2.000	80.000^†	16.000
Claude Sonnet 3	2.000	160.000^†	32.000
Claude Haiku 3	2.000	200.000^†	40.000

Modell	Maximale Anfragen pro Minute (RPM)	Maximale Input-Token pro Minute (ITPM)	Maximale Output-Token pro Minute (OTPM)
Claude Opus 4.x^*	4.000	2.000.000	400.000
Claude Sonnet 4	4.000	2.000.000	400.000
Claude Sonnet 3.7	4.000	200.000	80.000
Claude Sonnet 3.5 2024-10-22	4.000	400.000^†	80.000
Claude Sonnet 3.5 2024-06-20	4.000	400.000^†	80.000
Claude Haiku 3.5	4.000	400.000^†	80.000
Claude Opus 3	4.000	400.000^†	80.000
Claude Sonnet 3	4.000	400.000^†	80.000
Claude Haiku 3	4.000	400.000^†	80.000

Wenn Sie höhere Limits für einen Enterprise-Anwendungsfall suchen, kontaktieren Sie den Vertrieb über die Anthropic Console.

^{* - Das Opus 4.x Ratenlimit ist ein Gesamtlimit, das für kombinierten Traffic über sowohl Opus 4.0 als auch Opus 4.1 gilt.}

^{† - Limit zählt cache_read_input_tokens zur ITPM-Nutzung.}

Message Batches API

Die Message Batches API hat ihre eigenen Ratenlimits, die über alle Modelle hinweg geteilt werden. Diese umfassen ein Limit für Anfragen pro Minute (RPM) für alle API-Endpunkte und ein Limit für die Anzahl der Batch-Anfragen, die gleichzeitig in der Verarbeitungsqueue sein können. Eine “Batch-Anfrage” bezieht sich hier auf einen Teil einer Message Batch. Sie können eine Message Batch erstellen, die Tausende von Batch-Anfragen enthält, von denen jede zu diesem Limit zählt. Eine Batch-Anfrage wird als Teil der Verarbeitungsqueue betrachtet, wenn sie noch nicht erfolgreich vom Modell verarbeitet wurde.

Maximale Anfragen pro Minute (RPM)	Maximale Batch-Anfragen in Verarbeitungsqueue	Maximale Batch-Anfragen pro Batch
50	100.000	100.000

Maximale Anfragen pro Minute (RPM)	Maximale Batch-Anfragen in Verarbeitungsqueue	Maximale Batch-Anfragen pro Batch
50	100.000	100.000

Maximale Anfragen pro Minute (RPM)	Maximale Batch-Anfragen in Verarbeitungsqueue	Maximale Batch-Anfragen pro Batch
1.000	200.000	100.000

Maximale Anfragen pro Minute (RPM)	Maximale Batch-Anfragen in Verarbeitungsqueue	Maximale Batch-Anfragen pro Batch
2.000	300.000	100.000

Maximale Anfragen pro Minute (RPM)	Maximale Batch-Anfragen in Verarbeitungsqueue	Maximale Batch-Anfragen pro Batch
4.000	500.000	100.000

Wenn Sie höhere Limits für einen Enterprise-Anwendungsfall suchen, kontaktieren Sie den Vertrieb über die Anthropic Console.

Lange Kontext-Ratenlimits

Bei der Verwendung von Claude Sonnet 4 mit dem aktivierten 1M Token-Kontextfenster gelten die folgenden dedizierten Ratenlimits für Anfragen, die 200K Token überschreiten.

Das 1M Token-Kontextfenster ist derzeit in der Beta für Organisationen in Nutzungsstufe 4 und Organisationen mit benutzerdefinierten Ratenlimits. Das 1M Token-Kontextfenster ist nur für Claude Sonnet 4 verfügbar.

Maximale Input-Token pro Minute (ITPM)	Maximale Output-Token pro Minute (OTPM)
500.000	100.000

Maximale Input-Token pro Minute (ITPM)	Maximale Output-Token pro Minute (OTPM)
500.000	100.000

Für benutzerdefinierte lange Kontext-Ratenlimits für Enterprise-Anwendungsfälle kontaktieren Sie den Vertrieb über die Anthropic Console.

Um auf das vollständige 1M Token-Kontextfenster mit einem 500K ITPM-Ratenlimit zuzugreifen, können Sie Prompt Caching verwenden.

Niedrigere Limits für Workspaces festlegen

Um Workspaces in Ihrer Organisation vor potenziellem Überverbrauch zu schützen, können Sie benutzerdefinierte Ausgaben- und Ratenlimits pro Workspace festlegen.

Beispiel: Wenn das Limit Ihrer Organisation 40.000 Input-Token pro Minute und 8.000 Output-Token pro Minute beträgt, könnten Sie einen Workspace auf 30.000 Token insgesamt pro Minute begrenzen. Dies schützt andere Workspaces vor potenziellem Überverbrauch und gewährleistet eine gerechtere Verteilung der Ressourcen in Ihrer Organisation. Die verbleibenden ungenutzten Token pro Minute (oder mehr, wenn dieser Workspace das Limit nicht nutzt) stehen dann anderen Workspaces zur Verfügung.

Hinweis:

Sie können keine Limits für den Standard-Workspace festlegen.
Wenn nicht festgelegt, entsprechen Workspace-Limits dem Limit der Organisation.
Organisationsweite Limits gelten immer, auch wenn Workspace-Limits zusammen mehr ergeben.
Unterstützung für Input- und Output-Token-Limits wird in Zukunft zu Workspaces hinzugefügt.

Response-Header

Die API-Antwort enthält Header, die Ihnen das durchgesetzte Ratenlimit, die aktuelle Nutzung und wann das Limit zurückgesetzt wird, anzeigen.

Die folgenden Header werden zurückgegeben:

Header	Beschreibung
`retry-after`	Die Anzahl der Sekunden, die Sie warten müssen, bis Sie die Anfrage wiederholen können. Frühere Wiederholungen werden fehlschlagen.
`anthropic-ratelimit-requests-limit`	Die maximale Anzahl von Anfragen, die innerhalb einer Ratenlimit-Periode erlaubt sind.
`anthropic-ratelimit-requests-remaining`	Die Anzahl der verbleibenden Anfragen, bevor Sie ratenlimitiert werden.
`anthropic-ratelimit-requests-reset`	Die Zeit, wann das Anfragen-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format.
`anthropic-ratelimit-tokens-limit`	Die maximale Anzahl von Token, die innerhalb einer Ratenlimit-Periode erlaubt sind.
`anthropic-ratelimit-tokens-remaining`	Die Anzahl der verbleibenden Token (auf das nächste Tausend gerundet), bevor Sie ratenlimitiert werden.
`anthropic-ratelimit-tokens-reset`	Die Zeit, wann das Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format.
`anthropic-ratelimit-input-tokens-limit`	Die maximale Anzahl von Input-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind.
`anthropic-ratelimit-input-tokens-remaining`	Die Anzahl der verbleibenden Input-Token (auf das nächste Tausend gerundet), bevor Sie ratenlimitiert werden.
`anthropic-ratelimit-input-tokens-reset`	Die Zeit, wann das Input-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format.
`anthropic-ratelimit-output-tokens-limit`	Die maximale Anzahl von Output-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind.
`anthropic-ratelimit-output-tokens-remaining`	Die Anzahl der verbleibenden Output-Token (auf das nächste Tausend gerundet), bevor Sie ratenlimitiert werden.
`anthropic-ratelimit-output-tokens-reset`	Die Zeit, wann das Output-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format.
`anthropic-priority-input-tokens-limit`	Die maximale Anzahl von Priority Tier Input-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind. (Nur Priority Tier)
`anthropic-priority-input-tokens-remaining`	Die Anzahl der verbleibenden Priority Tier Input-Token (auf das nächste Tausend gerundet), bevor Sie ratenlimitiert werden. (Nur Priority Tier)
`anthropic-priority-input-tokens-reset`	Die Zeit, wann das Priority Tier Input-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format. (Nur Priority Tier)
`anthropic-priority-output-tokens-limit`	Die maximale Anzahl von Priority Tier Output-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind. (Nur Priority Tier)
`anthropic-priority-output-tokens-remaining`	Die Anzahl der verbleibenden Priority Tier Output-Token (auf das nächste Tausend gerundet), bevor Sie ratenlimitiert werden. (Nur Priority Tier)
`anthropic-priority-output-tokens-reset`	Die Zeit, wann das Priority Tier Output-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339-Format. (Nur Priority Tier)

Die anthropic-ratelimit-tokens-*-Header zeigen die Werte für das restriktivste Limit an, das derzeit in Kraft ist. Wenn Sie beispielsweise das Workspace-Token-Limit pro Minute überschritten haben, enthalten die Header die Workspace-Token-Ratenlimit-Werte pro Minute. Wenn Workspace-Limits nicht gelten, geben die Header die verbleibenden Token insgesamt zurück, wobei die Gesamtsumme die Summe aus Input- und Output-Token ist. Dieser Ansatz stellt sicher, dass Sie Einblick in die relevanteste Einschränkung Ihrer aktuellen API-Nutzung haben.

Verwendung der APIs

API-Referenz

SDKs

Beispiele

APIs von Drittanbietern

Verwendung der Admin API

Support & Konfiguration

Ratenlimits

Über unsere Limits

Ausgabenlimits

Anforderungen zum Stufenaufstieg

Ratenlimits

Message Batches API

Lange Kontext-Ratenlimits

Niedrigere Limits für Workspaces festlegen

Response-Header

Verwendung der APIs

API-Referenz

SDKs

Beispiele

APIs von Drittanbietern

Verwendung der Admin API

Support & Konfiguration

​Über unsere Limits

​Ausgabenlimits

​Anforderungen zum Stufenaufstieg

​Ratenlimits

​Message Batches API

​Lange Kontext-Ratenlimits

​Niedrigere Limits für Workspaces festlegen

​Response-Header

Über unsere Limits

Ausgabenlimits

Anforderungen zum Stufenaufstieg

Ratenlimits

Message Batches API

Lange Kontext-Ratenlimits

Niedrigere Limits für Workspaces festlegen

Response-Header