Wir bieten drei Service-Stufen an:

  • Priority Tier: Am besten für Workflows, die in der Produktion eingesetzt werden, bei denen Zeit, Verfügbarkeit und vorhersehbare Preise wichtig sind
  • Standard: Am besten für unregelmäßigen Datenverkehr oder wenn Sie eine neue Idee ausprobieren
  • Batch: Am besten für asynchrone Workflows, die warten können oder davon profitieren, außerhalb Ihrer normalen Kapazität zu sein

Standard Tier

Die Standard-Stufe ist die Standardstufe für alle API-Anfragen. Anfragen in dieser Stufe werden zusammen mit allen anderen Anfragen priorisiert und bieten eine bestmögliche Verfügbarkeit.

Priority Tier

Anfragen in dieser Stufe werden gegenüber allen anderen Anfragen an Anthropic priorisiert. Diese Priorisierung ermöglicht es uns, eine Garantie für die Seltenheit von “Server überlastet”-Fehlern zu geben, selbst zu Spitzenzeiten.

Weitere Informationen finden Sie unter Erste Schritte mit Priority Tier

Wie Anfragen Stufen zugewiesen werden

Bei der Bearbeitung einer Anfrage entscheidet Anthropic, eine Anfrage der Priority Tier in den folgenden Szenarien zuzuweisen:

  • Ihre Organisation verfügt über ausreichende Priority Tier-Kapazität für Input-Token pro Minute
  • Ihre Organisation verfügt über ausreichende Priority Tier-Kapazität für Output-Token pro Minute

Anthropic zählt die Nutzung gegen die Priority Tier-Kapazität wie folgt:

Input-Token

  • Cache-Lesevorgänge als 0,1 Token pro aus dem Cache gelesenem Token
  • Cache-Schreibvorgänge als 1,25 Token pro in den Cache geschriebenem Token mit einer TTL von 5 Minuten
  • Cache-Schreibvorgänge als 2,00 Token pro in den Cache geschriebenem Token mit einer TTL von 1 Stunde
  • Alle anderen Input-Token sind 1 Token pro Token

Output-Token

  • 1 Token pro Token

Andernfalls werden Anfragen in der Standard-Stufe bearbeitet.

Anfragen, die der Priority Tier zugewiesen werden, nutzen sowohl die Priority Tier-Kapazität als auch die regulären Rate-Limits. Wenn die Bearbeitung der Anfrage die Rate-Limits überschreiten würde, wird die Anfrage abgelehnt.

Verwendung von Service-Stufen

Sie können steuern, welche Service-Stufen für eine Anfrage verwendet werden können, indem Sie den Parameter service_tier festlegen:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Automatische Verwendung der Priority Tier, wenn verfügbar, Fallback auf Standard
)

Der Parameter service_tier akzeptiert die folgenden Werte:

  • "auto" (Standard) - Verwendet die Priority Tier-Kapazität, wenn verfügbar, und greift andernfalls auf Ihre andere Kapazität zurück
  • "standard_only" - Verwendet nur die Standard-Tier-Kapazität, nützlich, wenn Sie Ihre Priority Tier-Kapazität nicht nutzen möchten

Das Antwort-usage-Objekt enthält auch die der Anfrage zugewiesene Service-Stufe:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Dies ermöglicht es Ihnen festzustellen, welche Service-Stufe der Anfrage zugewiesen wurde.

Bei der Anforderung von service_tier="auto" mit einem Modell mit einer Priority Tier-Verpflichtung bieten diese Antwort-Header Einblicke:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Erste Schritte mit Priority Tier

Sie könnten sich für eine Priority Tier-Kapazität entscheiden, wenn Sie Interesse haben an:

  • Höhere Verfügbarkeit: 99,9% Uptime-SLA mit priorisierten Rechenressourcen
  • Kostenkontrolle: Vorhersehbare Ausgaben und Rabatte für längere Verpflichtungen
  • Flexible Überlaufmöglichkeit: Automatischer Rückgriff auf die Standard-Stufe, wenn Sie Ihre zugesicherte Kapazität überschreiten

Die Verpflichtung zur Priority Tier umfasst die Entscheidung über:

  • Eine Anzahl von Input-Token pro Minute
  • Eine Anzahl von Output-Token pro Minute
  • Eine Verpflichtungsdauer (1, 3, 6 oder 12 Monate)
  • Eine spezifische Modellversion

Das Verhältnis von Input- zu Output-Token, das Sie kaufen, ist wichtig. Die Dimensionierung Ihrer Priority Tier-Kapazität, um sie an Ihre tatsächlichen Verkehrsmuster anzupassen, hilft sicherzustellen, dass Sie alle gekauften Token vollständig nutzen.

Unterstützte Modelle

Priority Tier wird unterstützt von:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (beide Versionen)
  • Claude Haiku 3.5

Weitere Details zu unseren Modellen finden Sie auf der Modellübersichtsseite.

Wie Sie Zugang zur Priority Tier erhalten

Um mit der Nutzung der Priority Tier zu beginnen:

  1. Kontaktieren Sie den Vertrieb über die Anthropic Console, um die Bereitstellung abzuschließen
  2. (Optional) Aktualisieren Sie Ihre API-Anfragen, um optional den Parameter service_tier auf auto zu setzen
  3. Überwachen Sie Ihre Nutzung über Antwort-Header und die Anthropic Console