Nous proposons trois niveaux de service :

  • Niveau Prioritaire : Idéal pour les flux de travail déployés en production où le temps, la disponibilité et la tarification prévisible sont importants
  • Standard : Idéal pour le trafic en rafales, ou lorsque vous essayez une nouvelle idée
  • Lot (Batch) : Idéal pour les flux de travail asynchrones qui peuvent attendre ou bénéficier d’être en dehors de votre capacité normale

Niveau Standard

Le niveau standard est le niveau de service par défaut pour toutes les requêtes API. Les requêtes de ce niveau sont priorisées avec toutes les autres requêtes et bénéficient d’une disponibilité au mieux.

Niveau Prioritaire

Les requêtes de ce niveau sont priorisées par rapport à toutes les autres requêtes adressées à Anthropic. Cette priorisation nous permet de garantir la rareté des erreurs “serveur surchargé”, même pendant les périodes de pointe.

Pour plus d’informations, consultez Démarrer avec le Niveau Prioritaire

Comment les requêtes se voient attribuer des niveaux

Lors du traitement d’une requête, Anthropic décide d’attribuer une requête au Niveau Prioritaire dans les scénarios suivants :

  • Votre organisation dispose d’une capacité suffisante de niveau prioritaire en tokens d’entrée par minute
  • Votre organisation dispose d’une capacité suffisante de niveau prioritaire en tokens de sortie par minute

Anthropic comptabilise l’utilisation par rapport à la capacité du Niveau Prioritaire comme suit :

Tokens d’entrée

  • Lectures du cache à raison de 0,1 token par token lu depuis le cache
  • Écritures dans le cache à raison de 1,25 token par token écrit dans le cache avec un TTL de 5 minutes
  • Écritures dans le cache à raison de 2,00 tokens par token écrit dans le cache avec un TTL d’1 heure
  • Tous les autres tokens d’entrée comptent pour 1 token par token

Tokens de sortie

  • 1 token par token

Sinon, les requêtes sont traitées au niveau standard.

Les requêtes assignées au Niveau Prioritaire puisent à la fois dans la capacité du Niveau Prioritaire et dans les limites de débit régulières. Si le traitement de la requête devait dépasser les limites de débit, la requête est refusée.

Utilisation des niveaux de service

Vous pouvez contrôler quels niveaux de service peuvent être utilisés pour une requête en définissant le paramètre service_tier :

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Utilise automatiquement le Niveau Prioritaire lorsqu'il est disponible, sinon repli sur le standard
)

Le paramètre service_tier accepte les valeurs suivantes :

  • "auto" (par défaut) - Utilise la capacité du Niveau Prioritaire si disponible, se replie sur votre autre capacité si non
  • "standard_only" - Utilise uniquement la capacité de niveau standard, utile si vous ne voulez pas utiliser votre capacité de Niveau Prioritaire

L’objet usage de la réponse inclut également le niveau de service attribué à la requête :

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Cela vous permet de déterminer quel niveau de service a été attribué à la requête.

Lorsque vous demandez service_tier="auto" avec un modèle ayant un engagement de Niveau Prioritaire, ces en-têtes de réponse fournissent des informations :

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Démarrer avec le Niveau Prioritaire

Vous pourriez vouloir vous engager pour une capacité de Niveau Prioritaire si vous êtes intéressé par :

  • Disponibilité accrue : SLA de disponibilité de 99,9% avec des ressources de calcul prioritaires
  • Contrôle des coûts : Dépenses prévisibles et remises pour les engagements plus longs
  • Débordement flexible : Repli automatique sur le niveau standard lorsque vous dépassez votre capacité engagée

S’engager pour le Niveau Prioritaire impliquera de décider :

  • Un nombre de tokens d’entrée par minute
  • Un nombre de tokens de sortie par minute
  • Une durée d’engagement (1, 3, 6 ou 12 mois)
  • Une version spécifique du modèle

Le ratio de tokens d’entrée par rapport aux tokens de sortie que vous achetez est important. Dimensionner votre capacité de Niveau Prioritaire pour l’aligner sur vos modèles de trafic réels aide à garantir que vous utilisez pleinement tous les tokens achetés.

Modèles pris en charge

Le Niveau Prioritaire est pris en charge par :

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (les deux versions)
  • Claude Haiku 3.5

Consultez la page de présentation des modèles pour plus de détails sur nos modèles.

Comment accéder au Niveau Prioritaire

Pour commencer à utiliser le Niveau Prioritaire :

  1. Contactez les ventes via la Console Anthropic pour finaliser l’approvisionnement
  2. (Facultatif) Mettez à jour vos requêtes API pour définir éventuellement le paramètre service_tier sur auto
  3. Surveillez votre utilisation via les en-têtes de réponse et la Console Anthropic