Niveaux de service
Différents niveaux de service vous permettent d’équilibrer la disponibilité, les performances et les coûts prévisibles en fonction des besoins de votre application.
Nous proposons trois niveaux de service :
- Niveau Priorité : Idéal pour les flux de travail déployés en production où le temps, la disponibilité et la tarification prévisible sont importants
- Standard : Idéal pour le trafic en rafales, ou lorsque vous testez une nouvelle idée
- Lot : Idéal pour les flux de travail asynchrones qui peuvent attendre ou bénéficier d’être en dehors de votre capacité normale
Niveau Standard
Le niveau standard est le niveau de service par défaut pour toutes les requêtes API. Les requêtes de ce niveau sont priorisées aux côtés de toutes les autres requêtes et observent une disponibilité au mieux.
Niveau Priorité
Les requêtes de ce niveau sont priorisées par rapport à toutes les autres requêtes vers Anthropic. Cette priorisation aide à minimiser les erreurs “serveur surchargé”, même pendant les heures de pointe.
Pour plus d’informations, voir Commencer avec le Niveau Priorité
Comment les requêtes se voient attribuer des niveaux
Lors du traitement d’une requête, Anthropic décide d’attribuer une requête au Niveau Priorité dans les scénarios suivants :
- Votre organisation dispose d’une capacité suffisante de jetons d’entrée par minute du niveau priorité
- Votre organisation dispose d’une capacité suffisante de jetons de sortie par minute du niveau priorité
Anthropic compte l’utilisation contre la capacité du Niveau Priorité comme suit :
Jetons d’Entrée
- Lectures de cache comme 0,1 jeton par jeton lu depuis le cache
- Écritures de cache comme 1,25 jeton par jeton écrit dans le cache avec un TTL de 5 minutes
- Écritures de cache comme 2,00 jetons par jeton écrit dans le cache avec un TTL de 1 heure
- Tous les autres jetons d’entrée sont 1 jeton par jeton
Jetons de Sortie
- 1 jeton par jeton
Sinon, les requêtes procèdent au niveau standard.
Les requêtes attribuées au Niveau Priorité puisent à la fois dans la capacité du Niveau Priorité et dans les limites de taux régulières. Si le traitement de la requête dépasserait les limites de taux, la requête est refusée.
Utilisation des niveaux de service
Vous pouvez contrôler quels niveaux de service peuvent être utilisés pour une requête en définissant le paramètre service_tier
:
Le paramètre service_tier
accepte les valeurs suivantes :
"auto"
(par défaut) - Utilise la capacité du Niveau Priorité si disponible, se replie sur votre autre capacité sinon"standard_only"
- Utilise uniquement la capacité du niveau standard, utile si vous ne voulez pas utiliser votre capacité du Niveau Priorité
L’objet usage
de la réponse inclut également le niveau de service attribué à la requête :
Cela vous permet de déterminer quel niveau de service a été attribué à la requête.
Lors de la demande service_tier="auto"
avec un modèle avec un engagement Niveau Priorité, ces en-têtes de réponse fournissent des informations :
Vous pouvez utiliser la présence de ces en-têtes pour détecter si votre requête était éligible au Niveau Priorité, même si elle dépassait la limite.
Commencer avec le Niveau Priorité
Vous pourriez vouloir vous engager sur la capacité du Niveau Priorité si vous êtes intéressé par :
- Disponibilité plus élevée : Viser 99,5% de temps de fonctionnement avec des ressources de calcul priorisées
- Contrôle des coûts : Dépenses prévisibles et remises pour des engagements plus longs
- Débordement flexible : Se replie automatiquement sur le niveau standard lorsque vous dépassez votre capacité engagée
S’engager sur le Niveau Priorité impliquera de décider :
- Un nombre de jetons d’entrée par minute
- Un nombre de jetons de sortie par minute
- Une durée d’engagement (1, 3, 6 ou 12 mois)
- Une version de modèle spécifique
Le ratio de jetons d’entrée par rapport aux jetons de sortie que vous achetez importe. Dimensionner votre capacité du Niveau Priorité pour s’aligner avec vos modèles de trafic réels vous aide à maximiser l’utilisation de vos jetons achetés.
Modèles pris en charge
Le Niveau Priorité est pris en charge par :
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5 (les deux versions)
- Claude Haiku 3.5
Consultez la page de présentation des modèles pour plus de détails sur nos modèles.
Comment accéder au Niveau Priorité
Pour commencer à utiliser le Niveau Priorité :
- Contactez les ventes pour compléter l’approvisionnement
- (Optionnel) Mettez à jour vos requêtes API pour optionnellement définir le paramètre
service_tier
surauto
- Surveillez votre utilisation via les en-têtes de réponse et la Console Anthropic