Nutzungsbeschränkungen
Um Missbrauch zu verhindern und die Kapazität unserer API zu verwalten, haben wir Beschränkungen für die Nutzung der Claude API durch Organisationen eingeführt.
Wir haben zwei Arten von Beschränkungen:
- Ausgabenlimits legen einen maximalen monatlichen Betrag fest, den eine Organisation für die API-Nutzung aufwenden kann.
- Nutzungslimits legen die maximale Anzahl von API-Anfragen fest, die eine Organisation über einen definierten Zeitraum stellen kann.
Wir setzen dienstlich konfigurierte Limits auf Organisationsebene durch, aber Sie können auch benutzerdefinierte Limits für die Workspaces Ihrer Organisation festlegen.
Über unsere Beschränkungen
- Die Limits sind darauf ausgelegt, API-Missbrauch zu verhindern und dabei die Auswirkungen auf übliche Kundennutzungsmuster zu minimieren.
- Die Limits werden durch Nutzungsstufen definiert, wobei jede Stufe mit unterschiedlichen Ausgaben- und Nutzungslimits verbunden ist.
- Ihre Organisation steigt automatisch in höhere Stufen auf, wenn Sie bestimmte Schwellenwerte bei der API-Nutzung erreichen.
- Die Limits werden auf Organisationsebene festgelegt. Sie können die Limits Ihrer Organisation auf der Limits-Seite in der Anthropic Console einsehen.
- Sie können bei kürzeren Zeitintervallen an Nutzungslimits stoßen. Zum Beispiel kann eine Rate von 60 Anfragen pro Minute (RPM) als 1 Anfrage pro Sekunde durchgesetzt werden. Kurze Anfragespitzen mit hohem Volumen können das Nutzungslimit überschreiten und zu Ratenlimit-Fehlern führen.
- Die unten aufgeführten Limits sind unsere Standardlimits. Wenn Sie höhere, individuelle Limits benötigen, kontaktieren Sie den Vertrieb über die Anthropic Console.
- Wir verwenden den Token-Bucket-Algorithmus für das Rate Limiting.
- Alle hier beschriebenen Limits stellen maximal erlaubte Nutzungen dar, keine garantierten Mindestwerte. Diese Limits sollen übermäßige Nutzung verhindern und eine faire Verteilung der Ressourcen unter den Nutzern gewährleisten.
Ausgabenlimits
Jede Nutzungsstufe hat ein Limit für die API-Ausgaben pro Kalendermonat. Sobald Sie das Ausgabenlimit Ihrer Stufe erreichen, müssen Sie bis zum nächsten Monat warten, um die API wieder nutzen zu können, es sei denn, Sie qualifizieren sich für die nächste Stufe.
Um sich für die nächste Stufe zu qualifizieren, müssen Sie eine Einzahlungsanforderung erfüllen und eine obligatorische Wartezeit einhalten. Höhere Stufen erfordern längere Wartezeiten. Beachten Sie, dass Sie zur Minimierung des Risikos einer Überfinanzierung Ihres Kontos nicht mehr als Ihr monatliches Ausgabenlimit einzahlen können.
Anforderungen für den Stufenaufstieg
Nutzungsstufe | Kreditkauf | Wartezeit nach erstem Kauf | Maximale Nutzung pro Monat |
---|---|---|---|
Stufe 1 | $5 | 0 Tage | $100 |
Stufe 2 | $40 | 7 Tage | $500 |
Stufe 3 | $200 | 7 Tage | $1.000 |
Stufe 4 | $400 | 14 Tage | $5.000 |
Monatliche Abrechnung | N/A | N/A | N/A |
Aktualisierte Nutzungslimits
Unsere Nutzungslimits für die Messages API werden in Anfragen pro Minute (RPM), Eingabe-Tokens pro Minute (ITPM) und Ausgabe-Tokens pro Minute (OTPM) für jede Modellklasse gemessen. Wenn Sie eines der Nutzungslimits überschreiten, erhalten Sie einen 429-Fehler. Klicken Sie auf die Nutzungslimit-Stufe, um die relevanten Limits anzuzeigen.
Nutzungslimits werden pro Modell verfolgt. Daher teilen sich Modelle innerhalb derselben Stufe kein Nutzungslimit.
Modell | Maximale Anfragen pro Minute (RPM) | Maximale Eingabe-Tokens pro Minute (ITPM) | Maximale Ausgabe-Tokens pro Minute (OTPM) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40.000 | 8.000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40.000 | 8.000 |
Claude 3.5 Haiku | 50 | 50.000 | 10.000 |
Claude 3 Opus | 50 | 20.000 | 4.000 |
Claude 3 Sonnet | 50 | 40.000 | 8.000 |
Claude 3 Haiku | 50 | 50.000 | 10.000 |
OTPM-Nutzungslimits werden zu Beginn jeder Anfrage basierend auf max_tokens
geschätzt und die Schätzung wird am Ende der Anfrage angepasst, um die tatsächlich verwendete Anzahl von Ausgabe-Tokens widerzuspiegeln. Wenn Sie früher als erwartet an OTPM-Limits stoßen, versuchen Sie, max_tokens
an die Größe Ihrer Vervollständigungen anzupassen.
Message Batches API
Die Message Batches API hat eigene Nutzungslimits, die über alle Modelle hinweg geteilt werden. Diese umfassen ein Limit für Anfragen pro Minute (RPM) für alle API-Endpunkte und ein Limit für die Anzahl der Batch-Anfragen, die sich gleichzeitig in der Verarbeitungswarteschlange befinden können. Eine “Batch-Anfrage” bezieht sich hier auf einen Teil eines Message Batch. Sie können einen Message Batch mit Tausenden von Batch-Anfragen erstellen, von denen jede auf dieses Limit angerechnet wird. Eine Batch-Anfrage gilt als Teil der Verarbeitungswarteschlange, wenn sie noch nicht erfolgreich vom Modell verarbeitet wurde.
Maximale Anfragen pro Minute (RPM) | Maximale Batch-Anfragen in der Verarbeitungswarteschlange |
---|---|
50 | 100.000 |
Niedrigere Limits für Workspaces festlegen
Um Workspaces in Ihrer Organisation vor potenzieller Übernutzung zu schützen, können Sie benutzerdefinierte Ausgaben- und Nutzungslimits pro Workspace festlegen.
Beispiel: Wenn das Limit Ihrer Organisation 48.000 Tokens pro Minute beträgt (40.000 Eingabe-Tokens und 8.000 Ausgabe-Tokens), könnten Sie einen Workspace auf 30.000 Tokens pro Minute beschränken. Dies schützt andere Workspaces vor potenzieller Übernutzung und gewährleistet eine gerechtere Verteilung der Ressourcen in Ihrer Organisation. Die verbleibenden ungenutzten Tokens pro Minute (oder mehr, wenn dieser Workspace das Limit nicht ausschöpft) stehen dann anderen Workspaces zur Verfügung.
Hinweis:
- Sie können keine Limits für den Standard-Workspace festlegen.
- Wenn nicht festgelegt, entsprechen die Workspace-Limits dem Organisationslimit.
- Organisationsweite Limits gelten immer, auch wenn sich Workspace-Limits zu mehr addieren.
- Die Unterstützung für Eingabe- und Ausgabe-Token-Limits wird in Zukunft zu Workspaces hinzugefügt.
Antwort-Header
Die API-Antwort enthält Header, die Ihnen das durchgesetzte Nutzungslimit, die aktuelle Nutzung und den Zeitpunkt der Limitzurücksetzung anzeigen.
Die folgenden Header werden zurückgegeben:
Header | Beschreibung |
---|---|
anthropic-ratelimit-requests-limit | Die maximale Anzahl erlaubter Anfragen innerhalb einer Nutzungslimit-Periode. |
anthropic-ratelimit-requests-remaining | Die Anzahl der verbleibenden Anfragen vor der Nutzungsbeschränkung. |
anthropic-ratelimit-requests-reset | Der Zeitpunkt, zu dem das Anfragen-Nutzungslimit zurückgesetzt wird, im RFC 3339-Format. |
anthropic-ratelimit-tokens-limit | Die maximale Anzahl erlaubter Tokens innerhalb einer Nutzungslimit-Periode. |
anthropic-ratelimit-tokens-remaining | Die Anzahl der verbleibenden Tokens (auf Tausend gerundet) vor der Nutzungsbeschränkung. |
anthropic-ratelimit-tokens-reset | Der Zeitpunkt, zu dem das Token-Nutzungslimit zurückgesetzt wird, im RFC 3339-Format. |
anthropic-ratelimit-input-tokens-limit | Die maximale Anzahl erlaubter Eingabe-Tokens innerhalb einer Nutzungslimit-Periode. |
`anthrop |
ic-ratelimit-input-tokens-remaining | Die Anzahl der verbleibenden Eingabe-Tokens (auf Tausend gerundet) vor der Nutzungsbeschränkung. | |
anthropic-ratelimit-input-tokens-reset | Der Zeitpunkt, zu dem das Eingabe-Token-Nutzungslimit zurückgesetzt wird, im RFC 3339-Format. | |
anthropic-ratelimit-output-tokens-limit | Die maximale Anzahl erlaubter Ausgabe-Tokens innerhalb einer Nutzungslimit-Periode. | |
anthropic-ratelimit-output-tokens-remaining| Die Anzahl der verbleibenden Ausgabe-Tokens (auf Tausend gerundet) vor der Nutzungsbeschränkung. | |
anthropic-ratelimit-output-tokens-reset | Der Zeitpunkt, zu dem das Ausgabe-Token-Nutzungslimit zurückgesetzt wird, im RFC 3339-Format. | |
retry-after` | Die Anzahl der Sekunden, bis Sie die Anfrage wiederholen können. |
Die anthropic-ratelimit-tokens-*
Header zeigen die Werte für das aktuell restriktivste Limit an. Wenn Sie beispielsweise das Token-Limit pro Minute für den Workspace überschritten haben, enthalten die Header die Werte für das Token-Nutzungslimit pro Minute des Workspaces. Wenn keine Workspace-Limits gelten, geben die Header die verbleibenden Tokens insgesamt zurück, wobei die Gesamtzahl die Summe aus Eingabe- und Ausgabe-Tokens ist. Dieser Ansatz stellt sicher, dass Sie Einblick in die relevanteste Einschränkung Ihrer aktuellen API-Nutzung haben.
Alte Nutzungslimits
Unsere Nutzungslimits wurden früher in Anfragen pro Minute, Tokens pro Minute und Tokens pro Tag für jede Modellklasse gemessen. Wenn Sie eines der Nutzungslimits überschreiten, erhalten Sie einen 429-Fehler. Klicken Sie auf die Nutzungslimit-Stufe, um die relevanten Limits anzuzeigen.
Nutzungslimits werden pro Modell verfolgt, daher teilen sich Modelle innerhalb derselben Stufe kein Nutzungslimit.
Modell | Maximale Anfragen pro Minute (RPM) | Maximale Tokens pro Minute (TPM) | Maximale Tokens pro Tag (TPD) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40.000 | 1.000.000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40.000 | 1.000.000 |
Claude 3.5 Haiku | 50 | 50.000 | 5.000.000 |
Claude 3 Opus | 50 | 20.000 | 1.000.000 |
Claude 3 Sonnet | 50 | 40.000 | 1.000.000 |
Claude 3 Haiku | 50 | 50.000 | 5.000.000 |
Was this page helpful?