Nous proposons trois niveaux de service :

  • Niveau Priorité : Idéal pour les flux de travail déployés en production où le temps, la disponibilité et la tarification prévisible sont importants
  • Standard : Idéal pour le trafic en rafales, ou lorsque vous testez une nouvelle idée
  • Lot : Idéal pour les flux de travail asynchrones qui peuvent attendre ou bénéficier d’être en dehors de votre capacité normale

Niveau Standard

Le niveau standard est le niveau de service par défaut pour toutes les requêtes API. Les requêtes de ce niveau sont priorisées aux côtés de toutes les autres requêtes et observent une disponibilité au mieux.

Niveau Priorité

Les requêtes de ce niveau sont priorisées par rapport à toutes les autres requêtes vers Anthropic. Cette priorisation aide à minimiser les erreurs “serveur surchargé”, même pendant les heures de pointe.

Pour plus d’informations, voir Commencer avec le Niveau Priorité

Comment les requêtes se voient attribuer des niveaux

Lors du traitement d’une requête, Anthropic décide d’attribuer une requête au Niveau Priorité dans les scénarios suivants :

  • Votre organisation dispose d’une capacité suffisante de jetons d’entrée par minute du niveau priorité
  • Votre organisation dispose d’une capacité suffisante de jetons de sortie par minute du niveau priorité

Anthropic compte l’utilisation contre la capacité du Niveau Priorité comme suit :

Jetons d’Entrée

  • Lectures de cache comme 0,1 jeton par jeton lu depuis le cache
  • Écritures de cache comme 1,25 jeton par jeton écrit dans le cache avec un TTL de 5 minutes
  • Écritures de cache comme 2,00 jetons par jeton écrit dans le cache avec un TTL de 1 heure
  • Tous les autres jetons d’entrée sont 1 jeton par jeton

Jetons de Sortie

  • 1 jeton par jeton

Sinon, les requêtes procèdent au niveau standard.

Les requêtes attribuées au Niveau Priorité puisent à la fois dans la capacité du Niveau Priorité et dans les limites de taux régulières. Si le traitement de la requête dépasserait les limites de taux, la requête est refusée.

Utilisation des niveaux de service

Vous pouvez contrôler quels niveaux de service peuvent être utilisés pour une requête en définissant le paramètre service_tier :

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Utilise automatiquement le Niveau Priorité quand disponible, repli sur standard
)

Le paramètre service_tier accepte les valeurs suivantes :

  • "auto" (par défaut) - Utilise la capacité du Niveau Priorité si disponible, se replie sur votre autre capacité sinon
  • "standard_only" - Utilise uniquement la capacité du niveau standard, utile si vous ne voulez pas utiliser votre capacité du Niveau Priorité

L’objet usage de la réponse inclut également le niveau de service attribué à la requête :

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Cela vous permet de déterminer quel niveau de service a été attribué à la requête.

Lors de la demande service_tier="auto" avec un modèle avec un engagement Niveau Priorité, ces en-têtes de réponse fournissent des informations :

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Vous pouvez utiliser la présence de ces en-têtes pour détecter si votre requête était éligible au Niveau Priorité, même si elle dépassait la limite.

Commencer avec le Niveau Priorité

Vous pourriez vouloir vous engager sur la capacité du Niveau Priorité si vous êtes intéressé par :

  • Disponibilité plus élevée : Viser 99,5% de temps de fonctionnement avec des ressources de calcul priorisées
  • Contrôle des coûts : Dépenses prévisibles et remises pour des engagements plus longs
  • Débordement flexible : Se replie automatiquement sur le niveau standard lorsque vous dépassez votre capacité engagée

S’engager sur le Niveau Priorité impliquera de décider :

  • Un nombre de jetons d’entrée par minute
  • Un nombre de jetons de sortie par minute
  • Une durée d’engagement (1, 3, 6 ou 12 mois)
  • Une version de modèle spécifique

Le ratio de jetons d’entrée par rapport aux jetons de sortie que vous achetez importe. Dimensionner votre capacité du Niveau Priorité pour s’aligner avec vos modèles de trafic réels vous aide à maximiser l’utilisation de vos jetons achetés.

Modèles pris en charge

Le Niveau Priorité est pris en charge par :

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (les deux versions)
  • Claude Haiku 3.5

Consultez la page de présentation des modèles pour plus de détails sur nos modèles.

Comment accéder au Niveau Priorité

Pour commencer à utiliser le Niveau Priorité :

  1. Contactez les ventes pour compléter l’approvisionnement
  2. (Optionnel) Mettez à jour vos requêtes API pour optionnellement définir le paramètre service_tier sur auto
  3. Surveillez votre utilisation via les en-têtes de réponse et la Console Anthropic