Wir bieten drei Service-Stufen an:

  • Priority Tier: Am besten für Workflows, die in der Produktion eingesetzt werden, wo Zeit, Verfügbarkeit und vorhersagbare Preise wichtig sind
  • Standard: Standard-Stufe sowohl für Pilotprojekte als auch für die Skalierung alltäglicher Anwendungsfälle
  • Batch: Am besten für asynchrone Workflows, die warten können oder davon profitieren, außerhalb Ihrer normalen Kapazität zu sein

Standard Tier

Die Standard-Stufe ist die Standard-Service-Stufe für alle API-Anfragen. Anfragen in dieser Stufe werden zusammen mit allen anderen Anfragen priorisiert und beachten die bestmögliche Verfügbarkeit.

Priority Tier

Anfragen in dieser Stufe werden über alle anderen Anfragen an Anthropic priorisiert. Diese Priorisierung hilft dabei, “Server überlastet” Fehler zu minimieren, auch während Spitzenzeiten.

Für weitere Informationen siehe Erste Schritte mit Priority Tier

Wie Anfragen Stufen zugewiesen werden

Bei der Bearbeitung einer Anfrage entscheidet Anthropic, eine Anfrage dem Priority Tier in den folgenden Szenarien zuzuweisen:

  • Ihre Organisation hat ausreichende Priority Tier Kapazität für Input Tokens pro Minute
  • Ihre Organisation hat ausreichende Priority Tier Kapazität für Output Tokens pro Minute

Anthropic zählt die Nutzung gegen Priority Tier Kapazität wie folgt:

Input Tokens

  • Cache-Lesevorgänge als 0,1 Tokens pro Token, der aus dem Cache gelesen wird
  • Cache-Schreibvorgänge als 1,25 Tokens pro Token, der in den Cache mit einer 5-Minuten-TTL geschrieben wird
  • Cache-Schreibvorgänge als 2,00 Tokens pro Token, der in den Cache mit einer 1-Stunden-TTL geschrieben wird
  • Für Long-Context (>200k Input-Tokens) Anfragen sind Input-Tokens 2 Tokens pro Token
  • Alle anderen Input-Tokens sind 1 Token pro Token

Output Tokens

  • Für Long-Context (>200k Input-Tokens) Anfragen sind Output-Tokens 1,5 Tokens pro Token
  • Alle anderen Output-Tokens sind 1 Token pro Token

Andernfalls werden Anfragen auf Standard-Stufe verarbeitet.

Anfragen, die dem Priority Tier zugewiesen werden, ziehen sowohl von der Priority Tier Kapazität als auch von den regulären Ratenlimits. Wenn die Bearbeitung der Anfrage die Ratenlimits überschreiten würde, wird die Anfrage abgelehnt.

Verwendung von Service-Stufen

Sie können steuern, welche Service-Stufen für eine Anfrage verwendet werden können, indem Sie den service_tier Parameter setzen:

message = client.messages.create(
    model="claude-opus-4-1-20250805",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Automatically use Priority Tier when available, fallback to standard
)

Der service_tier Parameter akzeptiert die folgenden Werte:

  • "auto" (Standard) - Verwendet die Priority Tier Kapazität, wenn verfügbar, fällt auf Ihre andere Kapazität zurück, wenn nicht
  • "standard_only" - Verwendet nur Standard-Tier-Kapazität, nützlich wenn Sie Ihre Priority Tier Kapazität nicht verwenden möchten

Das Antwort-usage Objekt enthält auch die Service-Stufe, die der Anfrage zugewiesen wurde:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Dies ermöglicht es Ihnen zu bestimmen, welche Service-Stufe der Anfrage zugewiesen wurde.

Wenn Sie service_tier="auto" mit einem Modell mit einer Priority Tier Verpflichtung anfordern, bieten diese Antwort-Header Einblicke:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Sie können das Vorhandensein dieser Header verwenden, um zu erkennen, ob Ihre Anfrage für Priority Tier berechtigt war, auch wenn sie über dem Limit lag.

Erste Schritte mit Priority Tier

Sie möchten sich möglicherweise für Priority Tier Kapazität verpflichten, wenn Sie interessiert sind an:

  • Höhere Verfügbarkeit: Ziel von 99,5% Betriebszeit mit priorisierten Rechenressourcen
  • Kostenkontrolle: Vorhersagbare Ausgaben und Rabatte für längere Verpflichtungen
  • Flexibler Überlauf: Fällt automatisch auf Standard-Tier zurück, wenn Sie Ihre verpflichtete Kapazität überschreiten

Die Verpflichtung zu Priority Tier beinhaltet die Entscheidung über:

  • Eine Anzahl von Input-Tokens pro Minute
  • Eine Anzahl von Output-Tokens pro Minute
  • Eine Verpflichtungsdauer (1, 3, 6 oder 12 Monate)
  • Eine spezifische Modellversion

Das Verhältnis von Input- zu Output-Tokens, die Sie kaufen, ist wichtig. Die Dimensionierung Ihrer Priority Tier Kapazität zur Ausrichtung auf Ihre tatsächlichen Verkehrsmuster hilft Ihnen, die Nutzung Ihrer gekauften Tokens zu maximieren.

Unterstützte Modelle

Priority Tier wird unterstützt von:

  • Claude Opus 4.1
  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (beide Versionen)
  • Claude Haiku 3.5

Überprüfen Sie die Modellübersichtsseite für weitere Details zu unseren Modellen.

Wie Sie auf Priority Tier zugreifen

Um mit der Verwendung von Priority Tier zu beginnen:

  1. Kontaktieren Sie den Vertrieb, um die Bereitstellung abzuschließen
  2. (Optional) Aktualisieren Sie Ihre API-Anfragen, um optional den service_tier Parameter auf auto zu setzen
  3. Überwachen Sie Ihre Nutzung über Antwort-Header und die Anthropic Console