Wir haben zwei Arten von Beschränkungen:

  1. Ausgabenlimits legen einen maximalen monatlichen Betrag fest, den eine Organisation für die API-Nutzung aufwenden kann.
  2. Nutzungslimits legen die maximale Anzahl von API-Anfragen fest, die eine Organisation über einen definierten Zeitraum stellen kann.

Wir setzen dienstlich konfigurierte Limits auf Organisationsebene durch, aber Sie können auch benutzerdefinierte Limits für die Workspaces Ihrer Organisation festlegen.

Über unsere Beschränkungen

  • Die Limits sind darauf ausgelegt, API-Missbrauch zu verhindern und dabei die Auswirkungen auf übliche Kundennutzungsmuster zu minimieren.
  • Die Limits werden durch Nutzungsstufen definiert, wobei jede Stufe mit unterschiedlichen Ausgaben- und Nutzungslimits verbunden ist.
  • Ihre Organisation steigt automatisch in höhere Stufen auf, wenn Sie bestimmte Schwellenwerte bei der API-Nutzung erreichen.
  • Die Limits werden auf Organisationsebene festgelegt. Sie können die Limits Ihrer Organisation auf der Limits-Seite in der Anthropic Console einsehen.
  • Sie können bei kürzeren Zeitintervallen an Nutzungslimits stoßen. Zum Beispiel kann eine Rate von 60 Anfragen pro Minute (RPM) als 1 Anfrage pro Sekunde durchgesetzt werden. Kurze Anfragespitzen mit hohem Volumen können das Nutzungslimit überschreiten und zu Ratenlimit-Fehlern führen.
  • Die unten aufgeführten Limits sind unsere Standardlimits. Wenn Sie höhere, individuelle Limits benötigen, kontaktieren Sie den Vertrieb über die Anthropic Console.
  • Wir verwenden den Token-Bucket-Algorithmus für das Rate Limiting.
  • Alle hier beschriebenen Limits stellen maximal erlaubte Nutzungen dar, keine garantierten Mindestwerte. Diese Limits sollen übermäßige Nutzung verhindern und eine faire Verteilung der Ressourcen unter den Nutzern gewährleisten.

Ausgabenlimits

Jede Nutzungsstufe hat ein Limit für die API-Ausgaben pro Kalendermonat. Sobald Sie das Ausgabenlimit Ihrer Stufe erreichen, müssen Sie bis zum nächsten Monat warten, um die API wieder nutzen zu können, es sei denn, Sie qualifizieren sich für die nächste Stufe.

Um sich für die nächste Stufe zu qualifizieren, müssen Sie eine Einzahlungsanforderung erfüllen und eine obligatorische Wartezeit einhalten. Höhere Stufen erfordern längere Wartezeiten. Beachten Sie, dass Sie zur Minimierung des Risikos einer Überfinanzierung Ihres Kontos nicht mehr als Ihr monatliches Ausgabenlimit einzahlen können.

Anforderungen für den Stufenaufstieg

NutzungsstufeKreditkaufWartezeit nach erstem KaufMaximale Nutzung pro Monat
Stufe 1$50 Tage$100
Stufe 2$407 Tage$500
Stufe 3$2007 Tage$1.000
Stufe 4$40014 Tage$5.000
Monatliche AbrechnungN/AN/AN/A

Aktualisierte Nutzungslimits

Unsere Nutzungslimits für die Messages API werden in Anfragen pro Minute (RPM), Eingabe-Tokens pro Minute (ITPM) und Ausgabe-Tokens pro Minute (OTPM) für jede Modellklasse gemessen. Wenn Sie eines der Nutzungslimits überschreiten, erhalten Sie einen 429-Fehler. Klicken Sie auf die Nutzungslimit-Stufe, um die relevanten Limits anzuzeigen.

Nutzungslimits werden pro Modell verfolgt. Daher teilen sich Modelle innerhalb derselben Stufe kein Nutzungslimit.

ModellMaximale Anfragen pro Minute (RPM)Maximale Eingabe-Tokens pro Minute (ITPM)Maximale Ausgabe-Tokens pro Minute (OTPM)
Claude 3.5 Sonnet
2024-10-22
5040.0008.000
Claude 3.5 Sonnet
2024-06-20
5040.0008.000
Claude 3.5 Haiku5050.00010.000
Claude 3 Opus5020.0004.000
Claude 3 Sonnet5040.0008.000
Claude 3 Haiku5050.00010.000

OTPM-Nutzungslimits werden zu Beginn jeder Anfrage basierend auf max_tokens geschätzt und die Schätzung wird am Ende der Anfrage angepasst, um die tatsächlich verwendete Anzahl von Ausgabe-Tokens widerzuspiegeln. Wenn Sie früher als erwartet an OTPM-Limits stoßen, versuchen Sie, max_tokens an die Größe Ihrer Vervollständigungen anzupassen.

Message Batches API

Die Message Batches API hat eigene Nutzungslimits, die über alle Modelle hinweg geteilt werden. Diese umfassen ein Limit für Anfragen pro Minute (RPM) für alle API-Endpunkte und ein Limit für die Anzahl der Batch-Anfragen, die sich gleichzeitig in der Verarbeitungswarteschlange befinden können. Eine “Batch-Anfrage” bezieht sich hier auf einen Teil eines Message Batch. Sie können einen Message Batch mit Tausenden von Batch-Anfragen erstellen, von denen jede auf dieses Limit angerechnet wird. Eine Batch-Anfrage gilt als Teil der Verarbeitungswarteschlange, wenn sie noch nicht erfolgreich vom Modell verarbeitet wurde.

Maximale Anfragen pro Minute (RPM)Maximale Batch-Anfragen in der Verarbeitungswarteschlange
50100.000

Niedrigere Limits für Workspaces festlegen

Um Workspaces in Ihrer Organisation vor potenzieller Übernutzung zu schützen, können Sie benutzerdefinierte Ausgaben- und Nutzungslimits pro Workspace festlegen.

Beispiel: Wenn das Limit Ihrer Organisation 48.000 Tokens pro Minute beträgt (40.000 Eingabe-Tokens und 8.000 Ausgabe-Tokens), könnten Sie einen Workspace auf 30.000 Tokens pro Minute beschränken. Dies schützt andere Workspaces vor potenzieller Übernutzung und gewährleistet eine gerechtere Verteilung der Ressourcen in Ihrer Organisation. Die verbleibenden ungenutzten Tokens pro Minute (oder mehr, wenn dieser Workspace das Limit nicht ausschöpft) stehen dann anderen Workspaces zur Verfügung.

Hinweis:

  • Sie können keine Limits für den Standard-Workspace festlegen.
  • Wenn nicht festgelegt, entsprechen die Workspace-Limits dem Organisationslimit.
  • Organisationsweite Limits gelten immer, auch wenn sich Workspace-Limits zu mehr addieren.
  • Die Unterstützung für Eingabe- und Ausgabe-Token-Limits wird in Zukunft zu Workspaces hinzugefügt.

Antwort-Header

Die API-Antwort enthält Header, die Ihnen das durchgesetzte Nutzungslimit, die aktuelle Nutzung und den Zeitpunkt der Limitzurücksetzung anzeigen.

Die folgenden Header werden zurückgegeben:

HeaderBeschreibung
anthropic-ratelimit-requests-limitDie maximale Anzahl erlaubter Anfragen innerhalb einer Nutzungslimit-Periode.
anthropic-ratelimit-requests-remainingDie Anzahl der verbleibenden Anfragen vor der Nutzungsbeschränkung.
anthropic-ratelimit-requests-resetDer Zeitpunkt, zu dem das Anfragen-Nutzungslimit zurückgesetzt wird, im RFC 3339-Format.
anthropic-ratelimit-tokens-limitDie maximale Anzahl erlaubter Tokens innerhalb einer Nutzungslimit-Periode.
anthropic-ratelimit-tokens-remainingDie Anzahl der verbleibenden Tokens (auf Tausend gerundet) vor der Nutzungsbeschränkung.
anthropic-ratelimit-tokens-resetDer Zeitpunkt, zu dem das Token-Nutzungslimit zurückgesetzt wird, im RFC 3339-Format.
anthropic-ratelimit-input-tokens-limitDie maximale Anzahl erlaubter Eingabe-Tokens innerhalb einer Nutzungslimit-Periode.
`anthrop

ic-ratelimit-input-tokens-remaining | Die Anzahl der verbleibenden Eingabe-Tokens (auf Tausend gerundet) vor der Nutzungsbeschränkung. | |anthropic-ratelimit-input-tokens-reset | Der Zeitpunkt, zu dem das Eingabe-Token-Nutzungslimit zurückgesetzt wird, im RFC 3339-Format. | |anthropic-ratelimit-output-tokens-limit | Die maximale Anzahl erlaubter Ausgabe-Tokens innerhalb einer Nutzungslimit-Periode. | |anthropic-ratelimit-output-tokens-remaining| Die Anzahl der verbleibenden Ausgabe-Tokens (auf Tausend gerundet) vor der Nutzungsbeschränkung. | |anthropic-ratelimit-output-tokens-reset | Der Zeitpunkt, zu dem das Ausgabe-Token-Nutzungslimit zurückgesetzt wird, im RFC 3339-Format. | |retry-after` | Die Anzahl der Sekunden, bis Sie die Anfrage wiederholen können. |

Die anthropic-ratelimit-tokens-* Header zeigen die Werte für das aktuell restriktivste Limit an. Wenn Sie beispielsweise das Token-Limit pro Minute für den Workspace überschritten haben, enthalten die Header die Werte für das Token-Nutzungslimit pro Minute des Workspaces. Wenn keine Workspace-Limits gelten, geben die Header die verbleibenden Tokens insgesamt zurück, wobei die Gesamtzahl die Summe aus Eingabe- und Ausgabe-Tokens ist. Dieser Ansatz stellt sicher, dass Sie Einblick in die relevanteste Einschränkung Ihrer aktuellen API-Nutzung haben.

Alte Nutzungslimits

Unsere Nutzungslimits wurden früher in Anfragen pro Minute, Tokens pro Minute und Tokens pro Tag für jede Modellklasse gemessen. Wenn Sie eines der Nutzungslimits überschreiten, erhalten Sie einen 429-Fehler. Klicken Sie auf die Nutzungslimit-Stufe, um die relevanten Limits anzuzeigen.

Nutzungslimits werden pro Modell verfolgt, daher teilen sich Modelle innerhalb derselben Stufe kein Nutzungslimit.

ModellMaximale Anfragen pro Minute (RPM)Maximale Tokens pro Minute (TPM)Maximale Tokens pro Tag (TPD)
Claude 3.5 Sonnet
2024-10-22
5040.0001.000.000
Claude 3.5 Sonnet
2024-06-20
5040.0001.000.000
Claude 3.5 Haiku5050.0005.000.000
Claude 3 Opus5020.0001.000.000
Claude 3 Sonnet5040.0001.000.000
Claude 3 Haiku5050.0005.000.000

Was this page helpful?