Wir haben zwei Arten von Beschränkungen:

  1. Ausgabenlimits legen die maximalen monatlichen Kosten fest, die einer Organisation für die API-Nutzung entstehen können.
  2. Nutzungslimits legen die maximale Anzahl von API-Anfragen fest, die eine Organisation über einen definierten Zeitraum stellen kann.

Wir setzen dienstlich konfigurierte Limits auf Organisationsebene durch, aber Sie können auch benutzerkonfigurierbare Limits für die Workspaces Ihrer Organisation festlegen.

Über unsere Beschränkungen

  • Die Limits sind so konzipiert, dass sie API-Missbrauch verhindern und gleichzeitig die Auswirkungen auf übliche Kundennutzungsmuster minimieren.
  • Die Limits werden durch Nutzungsstufen definiert, wobei jede Stufe mit unterschiedlichen Ausgaben- und Nutzungslimits verbunden ist.
  • Ihre Organisation steigt automatisch in höhere Stufen auf, wenn Sie bestimmte Schwellenwerte bei der API-Nutzung erreichen.
  • Die Limits werden auf Organisationsebene festgelegt. Sie können die Limits Ihrer Organisation auf der Limits-Seite in der Anthropic Console einsehen.
  • Sie können über kürzere Zeitintervalle an Nutzungslimits stoßen. Beispielsweise kann eine Rate von 60 Anfragen pro Minute (RPM) als 1 Anfrage pro Sekunde durchgesetzt werden. Kurze Anfragespitzen mit hohem Volumen können das Nutzungslimit überschreiten und zu Ratenlimit-Fehlern führen.
  • Die unten aufgeführten Limits sind unsere Standardlimits. Wenn Sie höhere, individuelle Limits benötigen, kontaktieren Sie den Vertrieb über die Anthropic Console.
  • Wir verwenden den Token-Bucket-Algorithmus für die Ratenbegrenzung.
  • Alle hier beschriebenen Limits stellen die maximal zulässige Nutzung dar, nicht garantierte Mindestwerte. Diese Limits sollen Übernutzung verhindern und eine faire Verteilung der Ressourcen unter den Nutzern gewährleisten.

Ausgabenlimits

Jede Nutzungsstufe hat ein Limit für die API-Ausgaben pro Kalendermonat. Sobald Sie das Ausgabenlimit Ihrer Stufe erreichen, müssen Sie bis zum nächsten Monat warten, um die API wieder nutzen zu können, es sei denn, Sie qualifizieren sich für die nächste Stufe.

Um sich für die nächste Stufe zu qualifizieren, müssen Sie eine Einzahlungsanforderung erfüllen und eine obligatorische Wartezeit einhalten. Höhere Stufen erfordern längere Wartezeiten. Beachten Sie, dass Sie zur Minimierung des Risikos einer Überfinanzierung Ihres Kontos nicht mehr als Ihr monatliches Ausgabenlimit einzahlen können.

Anforderungen für den Stufenaufstieg

NutzungsstufeGuthaben-KaufWartezeit nach ErstkaufMax. Nutzung pro Monat
Stufe 1$50 Tage$100
Stufe 2$407 Tage$500
Stufe 3$2007 Tage$1.000
Stufe 4$40014 Tage$5.000
Monatliche AbrechnungN/AN/AN/A

Aktualisierte Nutzungslimits

Unsere Nutzungslimits werden in Anfragen pro Minute, Eingabe-Tokens pro Minute und Ausgabe-Tokens pro Minute für jede Modellklasse gemessen. Wenn Sie eines der Nutzungslimits überschreiten, erhalten Sie einen 429-Fehler. Klicken Sie auf die Nutzungslimit-Stufe, um die relevanten Limits anzuzeigen.

Nutzungslimits werden pro Modell verfolgt. Daher teilen sich Modelle innerhalb derselben Stufe kein Nutzungslimit.

ModellMaximale Anfragen pro Minute (RPM)Maximale Eingabe-Tokens pro Minute (ITPM)Maximale Ausgabe-Tokens pro Minute (OTPM)
Claude 3.5 Sonnet
2024-10-22
5040.0008.000
Claude 3.5 Sonnet
2024-06-20
5040.0008.000
Claude 3.5 Haiku5050.00010.000
Claude 3 Opus5020.0004.000
Claude 3 Sonnet5040.0008.000
Claude 3 Haiku5050.00010.000

Niedrigere Limits für Workspaces festlegen

Um Workspaces in Ihrer Organisation vor potenzieller Übernutzung zu schützen, können Sie benutzerdefinierte Ausgaben- und Nutzungslimits pro Workspace festlegen.

Beispiel: Wenn das Limit Ihrer Organisation 48.000 Tokens pro Minute beträgt (40.000 Eingabe-Tokens und 8.000 Ausgabe-Tokens), könnten Sie einen Workspace auf 30.000 Tokens pro Minute beschränken. Dies schützt andere Workspaces vor potenzieller Übernutzung und gewährleistet eine gerechtere Verteilung der Ressourcen in Ihrer Organisation. Die verbleibenden ungenutzten Tokens pro Minute (oder mehr, wenn dieser Workspace das Limit nicht ausschöpft) stehen dann anderen Workspaces zur Verfügung.

Hinweis:

  • Sie können keine Limits für den Standard-Workspace festlegen.
  • Wenn nicht festgelegt, entsprechen die Workspace-Limits dem Organisationslimit.
  • Organisationsweite Limits gelten immer, auch wenn die Summe der Workspace-Limits höher ist.
  • Die Unterstützung für Eingabe- und Ausgabe-Token-Limits wird in Zukunft zu Workspaces hinzugefügt.

Antwort-Header

Die API-Antwort enthält Header, die das durchgesetzte Nutzungslimit, die aktuelle Nutzung und den Zeitpunkt der Limit-Zurücksetzung anzeigen.

Die folgenden Header werden zurückgegeben:

HeaderBeschreibung
anthropic-ratelimit-requests-limitDie maximale Anzahl erlaubter Anfragen innerhalb einer Ratenlimit-Periode.
anthropic-ratelimit-requests-remainingDie Anzahl der verbleibenden Anfragen vor der Ratenbegrenzung.
anthropic-ratelimit-requests-resetDer Zeitpunkt, zu dem das Anfragen-Ratenlimit zurückgesetzt wird, im RFC 3339-Format.
anthropic-ratelimit-tokens-limitDie maximale Anzahl erlaubter Tokens innerhalb einer Ratenlimit-Periode.
anthropic-ratelimit-tokens-remainingDie Anzahl der verbleibenden Tokens (auf Tausend gerundet) vor der Ratenbegrenzung.
anthropic-ratelimit-tokens-resetDer Zeitpunkt, zu dem das Token-Ratenlimit zurückgesetzt wird, im RFC 3339-Format.
anthropic-ratelimit-input-tokens-limitDie maximale Anzahl erlaubter Eingabe-Tokens innerhalb einer Ratenlimit-Periode.
anthropic-ratelimit-input-tokens-remainingDie Anzahl der verbleibenden Eingabe-Tokens (auf Tausend gerundet) vor der Ratenbegrenzung.
anthropic-ratelimit-input-tokens-resetDer Zeitpunkt, zu dem das Eingabe-Token-Ratenlimit zurückgesetzt wird, im RFC 3339-Format.
anthropic-ratelimit-output-tokens-limitDie maximale Anzahl erlaubter Ausgabe-Tokens innerhalb einer Ratenlimit-Periode.
anthropic-ratelimit-output-tokens-remainingDie Anzahl der verbleibenden Ausgabe-Tokens (auf Tausend gerundet) vor der Ratenbegrenzung.
anthropic-ratelimit-output-tokens-resetDer Zeitpunkt, zu dem das Ausgabe-Token-Ratenlimit zurückgesetzt wird, im RFC 3339-Format.
retry-afterDie Anzahl der Sekunden, bis Sie die Anfrage wiederholen können.

Die anthropic-ratelimit-tokens-* Header zeigen die Werte für das aktuell restriktivste Limit an. Wenn Sie beispielsweise das Workspace-Token-Limit pro Minute überschritten haben, enthalten die Header die Werte des Workspace-Token-Ratenlimits pro Minute. Wenn keine Workspace-Limits gelten, geben die Header die verbleibenden Gesamt-Tokens zurück, wobei die Gesamtzahl die Summe aus Eingabe- und Ausgabe-Tokens ist. Dieser Ansatz stellt sicher, dass Sie Einblick in die relevanteste Einschränkung Ihrer aktuellen API-Nutzung haben.

Alte Nutzungslimits

Unsere Nutzungslimits wurden früher in Anfragen pro Minute, Tokens pro Minute und Tokens pro Tag für jede Modellklasse gemessen. Wenn Sie eines der Nutzungslimits überschreiten, erhalten Sie einen 429-Fehler. Klicken Sie auf die Nutzungslimit-Stufe, um die relevanten Limits anzuzeigen.

Nutzungslimits werden pro Modell verfolgt, daher teilen sich Modelle innerhalb derselben Stufe kein Nutzungslimit.

ModellMaximale Anfragen pro Minute (RPM)Maximale Tokens pro Minute (TPM)Maximale Tokens pro Tag (TPD)
Claude 3.5 Sonnet
2024-10-22
5040.0001.000.000
Claude 3.5 Sonnet
2024-06-20
5040.0001.000.000
Claude 3.5 Haiku5050.0005.000.000
Claude 3 Opus5020.0001.000.000
Claude 3 Sonnet5040.0001.000.000
Claude 3 Haiku5050.0005.000.000