Nutzungsbeschränkungen
Um Missbrauch zu verhindern und die Kapazität unserer API zu verwalten, haben wir Beschränkungen für die Nutzung der Claude API durch Organisationen eingeführt.
Wir haben zwei Arten von Beschränkungen:
- Ausgabenlimits legen die maximalen monatlichen Kosten fest, die einer Organisation für die API-Nutzung entstehen können.
- Nutzungslimits legen die maximale Anzahl von API-Anfragen fest, die eine Organisation über einen definierten Zeitraum stellen kann.
Wir setzen dienstlich konfigurierte Beschränkungen auf Organisationsebene durch, aber Sie können auch benutzerkonfigurierbare Beschränkungen für die Workspaces Ihrer Organisation festlegen.
Über unsere Beschränkungen
- Die Beschränkungen sind darauf ausgelegt, API-Missbrauch zu verhindern und gleichzeitig die Auswirkungen auf übliche Kundennutzungsmuster zu minimieren.
- Die Beschränkungen werden durch Nutzungsstufen definiert, wobei jede Stufe mit unterschiedlichen Ausgaben- und Nutzungslimits verbunden ist.
- Ihre Organisation steigt automatisch in höhere Stufen auf, wenn Sie bestimmte Schwellenwerte bei der API-Nutzung erreichen.
- Die Beschränkungen werden auf Organisationsebene festgelegt. Sie können die Beschränkungen Ihrer Organisation auf der Limits-Seite in der Anthropic Console einsehen.
- Sie können bei kürzeren Zeitintervallen an Nutzungslimits stoßen. Beispielsweise kann eine Rate von 60 Anfragen pro Minute (RPM) als 1 Anfrage pro Sekunde durchgesetzt werden. Kurze Anfragespitzen mit hohem Volumen können das Nutzungslimit überschreiten und zu Ratenlimit-Fehlern führen.
- Die unten aufgeführten Beschränkungen sind unsere Standardbeschränkungen. Wenn Sie höhere, individuelle Beschränkungen wünschen, kontaktieren Sie den Vertrieb über die Anthropic Console.
- Wir verwenden den Token-Bucket-Algorithmus für die Ratenbegrenzung. Das bedeutet, dass Ihre Kapazität kontinuierlich bis zu Ihrem maximalen Limit aufgefüllt wird, anstatt in festen Intervallen zurückgesetzt zu werden.
- Alle hier beschriebenen Beschränkungen stellen maximal zulässige Nutzungen dar, keine garantierten Mindestwerte. Diese Beschränkungen sollen Übernutzung verhindern und eine faire Verteilung der Ressourcen unter den Nutzern gewährleisten.
Ausgabenlimits
Jede Nutzungsstufe hat eine Beschränkung für die Höhe der Ausgaben, die Sie jeden Kalendermonat für die API tätigen können. Sobald Sie das Ausgabenlimit Ihrer Stufe erreicht haben, müssen Sie bis zum nächsten Monat warten, um die API wieder nutzen zu können, es sei denn, Sie qualifizieren sich für die nächste Stufe.
Um sich für die nächste Stufe zu qualifizieren, müssen Sie eine Einzahlungsanforderung erfüllen und eine obligatorische Wartezeit einhalten. Höhere Stufen erfordern längere Wartezeiten. Beachten Sie, dass Sie zur Minimierung des Risikos einer Überfinanzierung Ihres Kontos nicht mehr als Ihr monatliches Ausgabenlimit einzahlen können.
Anforderungen für den Stufenaufstieg
Nutzungsstufe | Guthaben-Kauf | Wartezeit nach erstem Kauf | Max. Nutzung pro Monat |
---|---|---|---|
Stufe 1 | $5 | 0 Tage | $100 |
Stufe 2 | $40 | 7 Tage | $500 |
Stufe 3 | $200 | 7 Tage | $1.000 |
Stufe 4 | $400 | 14 Tage | $5.000 |
Monatliche Abrechnung | N/A | N/A | N/A |
Aktualisierte Nutzungslimits
Unsere Nutzungslimits für die Messages API werden in Anfragen pro Minute (RPM), Eingabe-Token pro Minute (ITPM) und Ausgabe-Token pro Minute (OTPM) für jede Modellklasse gemessen. Wenn Sie eines der Nutzungslimits überschreiten, erhalten Sie einen 429-Fehler.
ITPM-Nutzungslimits werden zu Beginn jeder Anfrage basierend auf der Prompt-Länge geschätzt und die Schätzung wird am Ende der Anfrage angepasst, um die tatsächliche Anzahl der verwendeten Eingabe-Token widerzuspiegeln.
Beachten Sie, dass alle Arten von Eingabe-Token (input_tokens
, cache_creation_input_tokens
und cache_read_input_tokens
) gleichermaßen auf die ITPM-Nutzungslimits angerechnet werden, auch wenn sie zu unterschiedlichen Sätzen abgerechnet werden.
OTPM-Nutzungslimits werden zu Beginn jeder Anfrage basierend auf max_tokens
geschätzt und die Schätzung wird am Ende der Anfrage angepasst, um die tatsächliche Anzahl der verwendeten Ausgabe-Token widerzuspiegeln.
Wenn Sie früher als erwartet auf OTPM-Limits stoßen, versuchen Sie max_tokens
zu reduzieren, um die Größe Ihrer Vervollständigungen besser abzuschätzen.
Klicken Sie in der Tabelle auf eine Nutzungslimit-Stufe, um die relevanten Nutzungslimits anzuzeigen. Nutzungslimits werden pro Modell verfolgt; daher teilen sich Modelle innerhalb derselben Stufe kein Nutzungslimit.
Modell | Maximale Anfragen pro Minute (RPM) | Maximale Eingabe-Token pro Minute (ITPM) | Maximale Ausgabe-Token pro Minute (OTPM) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40.000 | 8.000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40.000 | 8.000 |
Claude 3.5 Haiku | 50 | 50.000 | 10.000 |
Claude 3 Opus | 50 | 20.000 | 4.000 |
Claude 3 Sonnet | 50 | 40.000 | 8.000 |
Claude 3 Haiku | 50 | 50.000 | 10.000 |
Message Batches API
Die Message Batches API hat ihre eigenen Nutzungslimits, die über alle Modelle hinweg geteilt werden. Diese umfassen ein Limit für Anfragen pro Minute (RPM) für alle API-Endpunkte und ein Limit für die Anzahl der Batch-Anfragen, die sich gleichzeitig in der Verarbeitungswarteschlange befinden können. Eine “Batch-Anfrage” bezieht sich hier auf einen Teil eines Message Batch. Sie können einen Message Batch mit Tausenden von Batch-Anfragen erstellen, von denen jede auf dieses Limit angerechnet wird. Eine Batch-Anfrage gilt als Teil der Verarbeitungswarteschlange, wenn sie noch nicht erfolgreich vom Modell verarbeitet wurde.
Maximale Anfragen pro Minute (RPM) | Maximale Batch-Anfragen in Verarbeitungswarteschlange | Maximale Batch-Anfragen pro Batch |
---|---|---|
50 | 100.000 | 100.000 |
Festlegen niedrigerer Limits für Workspaces
Um Workspaces in Ihrer Organisation vor potenzieller Übernutzung zu schützen, können Sie benutzerdefinierte Ausgaben- und Nutzungslimits pro Workspace festlegen.
Beispiel: Wenn das Limit Ihrer Organisation 48.000 Token pro Minute beträgt (40.000 Eingabe-Token und 8.000 Ausgabe-Token), könnten Sie einen Workspace auf 30.000 Token pro Minute beschränken. Dies schützt andere Workspaces vor potenzieller Übernutzung und gewährleistet eine gerechtere Verteilung der Ressourcen in Ihrer Organisation. Die verbleibenden ungenutzten Token pro Minute (oder mehr, wenn dieser Workspace das Limit nicht ausschöpft) stehen dann anderen Workspaces zur Verfügung.
Hinweis:
- Sie können keine Limits für den Standard-Workspace festlegen.
- Wenn nicht festgelegt, entsprechen die Workspace-Limits dem Limit der Organisation.
- Organisationsweite Limits gelten immer, auch wenn sich Workspace-Limits zu mehr addieren.
- Die Unterstützung für Eingabe- und Ausgabe-Token-Limits wird in Zukunft zu Workspaces hinzugefügt.
Antwort-Header
Die API-Antwort enthält Header, die Ihnen das durchgesetzte Nutzungslimit, die aktuelle Nutzung und den Zeitpunkt der Limit-Zurücksetzung anzeigen.
Die folgenden Header werden zurückgegeben:
Header | Beschreibung |
---|---|
anthropic-ratelimit-requests-limit | Die maximale Anzahl erlaubter Anfragen innerhalb einer Nutzungslimit-Periode. |
anthropic-ratelimit-requests-remaining | Die Anzahl der verbleibenden Anfragen, bevor das Nutzungslimit erreicht wird. |
anthropic-ratelimit-requests-reset | Der Zeitpunkt, zu dem das Anfragen-Nutzungslimit vollständig aufgefüllt wird, im RFC 3339-Format. |
anthropic-ratelimit-tokens-limit | Die maximale Anzahl erlaubter Token innerhalb einer Nutzungslimit-Periode. |
anthropic-ratelimit-tokens-remaining | Die Anzahl der verbleibenden Token (auf Tausend gerundet), bevor das Nutzungslimit erreicht wird. |
anthropic-ratelimit-tokens-reset | Der Zeitpunkt, zu dem das Token-Nutzungslimit vollständig aufgefüllt wird, im RFC 3339-Format. |
anthropic-ratelimit-input-tokens-limit | Die maximale Anzahl erlaubter Eingabe-Token innerhalb einer Nutzungslimit-Periode. |
anthropic-ratelimit-input-tokens-remaining | Die Anzahl der verbleibenden Eingabe-Token (auf Tausend gerundet), bevor das Nutzungslimit erreicht wird. |
anthropic-ratelimit-input-tokens-reset | Der Zeitpunkt, zu dem das Eingabe-Token-Nutzungslimit vollständig aufgefüllt wird, im RFC 3339-Format. |
anthropic-ratelimit-output-tokens-limit | Die maximale Anzahl erlaubter Ausgabe-Token innerhalb einer Nutzungslimit-Periode. |
anthropic-ratelimit-output-tokens-remaining | Die Anzahl der verbleibenden Ausgabe-Token (auf Tausend gerundet), bevor das Nutzungslimit erreicht wird. |
anthropic-ratelimit-output-tokens-reset | Der Zeitpunkt, zu dem das Ausgabe-Token-Nutzungslimit vollständig aufgefüllt wird, im RFC 3339-Format. |
retry-after | Die Anzahl der Sekunden, bis Sie die Anfrage wiederholen können. |
Die anthropic-ratelimit-tokens-*
Header zeigen die Werte für das derzeit restriktivste geltende Limit an. Wenn Sie beispielsweise das Workspace-Token-Limit pro Minute überschritten haben, enthalten die Header die Werte für das Workspace-Token-Nutzungslimit pro Minute. Wenn keine Workspace-Limits gelten, geben die Header die verbleibenden Token insgesamt zurück, wobei die Gesamtsumme die Summe aus Eingabe- und Ausgabe-Token ist. Dieser Ansatz stellt sicher, dass Sie Einblick in die relevanteste Einschränkung Ihrer aktuellen API-Nutzung haben.
Alte Nutzungslimits
Unsere Nutzungslimits wurden früher in Anfragen pro Minute, Token pro Minute und Token pro Tag für jede Modellklasse gemessen. Wenn Sie eines der Nutzungslimits überschreiten, erhalten Sie einen 429-Fehler. Klicken Sie auf die Nutzungslimit-Stufe, um die relevanten Nutzungslimits anzuzeigen.
Nutzungslimits werden pro Modell verfolgt, daher teilen sich Modelle innerhalb derselben Stufe kein Nutzungslimit.
Modell | Maximale Anfragen pro Minute (RPM) | Maximale Token pro Minute (TPM) | Maximale Token pro Tag (TPD) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40.000 | 1.000.000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40.000 | 1.000.000 |
Claude 3.5 Haiku | 50 | 50.000 | 5.000.000 |
Claude 3 Opus | 50 | 20.000 | 1.000.000 |
Claude 3 Sonnet | 50 | 40.000 | 1.000.000 |
Claude 3 Haiku | 50 | 50.000 | 5.000.000 |
Was this page helpful?