Limites de taux
Pour atténuer les abus et gérer la capacité de notre API, nous avons mis en place des limites sur l’utilisation que peut faire une organisation de l’API Claude.
Nous avons deux types de limites :
- Les limites de dépenses fixent un coût mensuel maximum qu’une organisation peut engager pour l’utilisation de l’API.
- Les limites de taux fixent le nombre maximum de requêtes API qu’une organisation peut effectuer sur une période de temps définie.
Nous appliquons des limites configurées par le service au niveau de l’organisation, mais vous pouvez également définir des limites configurables par l’utilisateur pour les espaces de travail de votre organisation.
Ces limites s’appliquent à la fois à l’utilisation du niveau Standard et du niveau Priorité. Pour plus d’informations sur le niveau Priorité, qui offre des niveaux de service améliorés en échange d’une dépense engagée, voir Niveaux de service.
À propos de nos limites
- Les limites sont conçues pour prévenir l’abus de l’API, tout en minimisant l’impact sur les modèles d’utilisation courants des clients.
- Les limites sont définies par niveau d’utilisation, où chaque niveau est associé à un ensemble différent de limites de dépenses et de taux.
- Votre organisation augmentera automatiquement de niveau lorsque vous atteindrez certains seuils en utilisant l’API. Les limites sont définies au niveau de l’organisation. Vous pouvez voir les limites de votre organisation dans la page Limites de la Console Anthropic.
- Vous pouvez atteindre les limites de taux sur des intervalles de temps plus courts. Par exemple, un taux de 60 requêtes par minute (RPM) peut être appliqué comme 1 requête par seconde. De courtes rafales de requêtes à un volume élevé peuvent dépasser la limite de taux et entraîner des erreurs de limite de taux.
- Les limites décrites ci-dessous sont nos limites de niveau standard. Si vous recherchez des limites plus élevées et personnalisées ou le niveau Priorité pour des niveaux de service améliorés, contactez les ventes via la Console Anthropic.
- Nous utilisons l’algorithme de seau de jetons pour effectuer la limitation de taux. Cela signifie que votre capacité est continuellement reconstituée jusqu’à votre limite maximale, plutôt que d’être réinitialisée à des intervalles fixes.
- Toutes les limites décrites ici représentent l’utilisation maximale autorisée, pas des minimums garantis. Ces limites sont destinées à réduire les dépassements de dépenses involontaires et à assurer une distribution équitable des ressources entre les utilisateurs.
Limites de dépenses
Chaque niveau d’utilisation a une limite sur ce que vous pouvez dépenser sur l’API chaque mois calendaire. Une fois que vous atteignez la limite de dépenses de votre niveau, jusqu’à ce que vous vous qualifiiez pour le niveau suivant, vous devrez attendre jusqu’au mois suivant pour pouvoir utiliser l’API à nouveau.
Pour vous qualifier pour le niveau suivant, vous devez répondre à une exigence de dépôt. Pour minimiser le risque de surfinancement de votre compte, vous ne pouvez pas déposer plus que votre limite de dépenses mensuelle.
Exigences pour avancer de niveau
Niveau d’utilisation | Achat de crédit | Utilisation max par mois |
---|---|---|
Niveau 1 | 5 | |
Niveau 2 | 40 | |
Niveau 3 | 200 | |
Niveau 4 | 400 | |
Facturation mensuelle | N/A | N/A |
Limites de taux
Nos limites de taux pour l’API Messages sont mesurées en requêtes par minute (RPM), jetons d’entrée par minute (ITPM), et jetons de sortie par minute (OTPM) pour chaque classe de modèle.
Si vous dépassez l’une des limites de taux, vous obtiendrez une erreur 429 décrivant quelle limite de taux a été dépassée, ainsi qu’un en-tête retry-after
indiquant combien de temps attendre.
Les limites de taux ITPM sont estimées au début de chaque requête, et l’estimation est ajustée pendant la requête pour refléter le nombre réel de jetons d’entrée utilisés.
L’ajustement final compte input_tokens
et cache_creation_input_tokens
vers les limites de taux ITPM, tandis que cache_read_input_tokens
ne le sont pas (bien qu’ils soient toujours facturés).
Dans certains cas, cache_read_input_tokens
sont comptés vers les limites de taux ITPM.
Les limites de taux OTPM sont estimées basées sur max_tokens
au début de chaque requête, et l’estimation est ajustée à la fin de la requête pour refléter le nombre réel de jetons de sortie utilisés.
Si vous atteignez les limites OTPM plus tôt que prévu, essayez de réduire max_tokens
pour mieux approximer la taille de vos complétions.
Les limites de taux sont appliquées séparément pour chaque modèle ; par conséquent, vous pouvez utiliser différents modèles jusqu’à leurs limites respectives simultanément. Vous pouvez vérifier vos limites de taux actuelles et votre comportement dans la Console Anthropic.
Pour les requêtes de contexte long (>200K jetons) lors de l’utilisation de l’en-tête bêta context-1m-2025-08-07
avec Claude Sonnet 4, des limites de taux séparées s’appliquent. Voir Limites de taux de contexte long ci-dessous.
Modèle | Requêtes maximum par minute (RPM) | Jetons d’entrée maximum par minute (ITPM) | Jetons de sortie maximum par minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30 000 | 8 000 |
Claude Sonnet 4 | 50 | 30 000 | 8 000 |
Claude Sonnet 3.7 | 50 | 20 000 | 8 000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40 000† | 8 000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40 000† | 8 000 |
Claude Haiku 3.5 | 50 | 50 000† | 10 000 |
Claude Opus 3 | 50 | 20 000† | 4 000 |
Claude Sonnet 3 | 50 | 40 000† | 8 000 |
Claude Haiku 3 | 50 | 50 000† | 10 000 |
Modèle | Requêtes maximum par minute (RPM) | Jetons d’entrée maximum par minute (ITPM) | Jetons de sortie maximum par minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30 000 | 8 000 |
Claude Sonnet 4 | 50 | 30 000 | 8 000 |
Claude Sonnet 3.7 | 50 | 20 000 | 8 000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40 000† | 8 000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40 000† | 8 000 |
Claude Haiku 3.5 | 50 | 50 000† | 10 000 |
Claude Opus 3 | 50 | 20 000† | 4 000 |
Claude Sonnet 3 | 50 | 40 000† | 8 000 |
Claude Haiku 3 | 50 | 50 000† | 10 000 |
Modèle | Requêtes maximum par minute (RPM) | Jetons d’entrée maximum par minute (ITPM) | Jetons de sortie maximum par minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 1 000 | 450 000 | 90 000 |
Claude Sonnet 4 | 1 000 | 450 000 | 90 000 |
Claude Sonnet 3.7 | 1 000 | 40 000 | 16 000 |
Claude Sonnet 3.5 2024-10-22 | 1 000 | 80 000† | 16 000 |
Claude Sonnet 3.5 2024-06-20 | 1 000 | 80 000† | 16 000 |
Claude Haiku 3.5 | 1 000 | 100 000† | 20 000 |
Claude Opus 3 | 1 000 | 40 000† | 8 000 |
Claude Sonnet 3 | 1 000 | 80 000† | 16 000 |
Claude Haiku 3 | 1 000 | 100 000† | 20 000 |
Modèle | Requêtes maximum par minute (RPM) | Jetons d’entrée maximum par minute (ITPM) | Jetons de sortie maximum par minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 2 000 | 800 000 | 160 000 |
Claude Sonnet 4 | 2 000 | 800 000 | 160 000 |
Claude Sonnet 3.7 | 2 000 | 80 000 | 32 000 |
Claude Sonnet 3.5 2024-10-22 | 2 000 | 160 000† | 32 000 |
Claude Sonnet 3.5 2024-06-20 | 2 000 | 160 000† | 32 000 |
Claude Haiku 3.5 | 2 000 | 200 000† | 40 000 |
Claude Opus 3 | 2 000 | 80 000† | 16 000 |
Claude Sonnet 3 | 2 000 | 160 000† | 32 000 |
Claude Haiku 3 | 2 000 | 200 000† | 40 000 |
Modèle | Requêtes maximum par minute (RPM) | Jetons d’entrée maximum par minute (ITPM) | Jetons de sortie maximum par minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 4 000 | 2 000 000 | 400 000 |
Claude Sonnet 4 | 4 000 | 2 000 000 | 400 000 |
Claude Sonnet 3.7 | 4 000 | 200 000 | 80 000 |
Claude Sonnet 3.5 2024-10-22 | 4 000 | 400 000† | 80 000 |
Claude Sonnet 3.5 2024-06-20 | 4 000 | 400 000† | 80 000 |
Claude Haiku 3.5 | 4 000 | 400 000† | 80 000 |
Claude Opus 3 | 4 000 | 400 000† | 80 000 |
Claude Sonnet 3 | 4 000 | 400 000† | 80 000 |
Claude Haiku 3 | 4 000 | 400 000† | 80 000 |
Si vous recherchez des limites plus élevées pour un cas d’usage Entreprise, contactez les ventes via la Console Anthropic.
* - La limite de taux Opus 4.x est une limite totale qui s’applique au trafic combiné à travers Opus 4.0 et Opus 4.1.
† - La limite compte cache_read_input_tokens
vers l’utilisation ITPM.
API Message Batches
L’API Message Batches a son propre ensemble de limites de taux qui sont partagées entre tous les modèles. Celles-ci incluent une limite de requêtes par minute (RPM) pour tous les points de terminaison API et une limite sur le nombre de requêtes de lot qui peuvent être dans la file de traitement en même temps. Une “requête de lot” ici fait référence à une partie d’un Message Batch. Vous pouvez créer un Message Batch contenant des milliers de requêtes de lot, chacune comptant vers cette limite. Une requête de lot est considérée comme faisant partie de la file de traitement lorsqu’elle n’a pas encore été traitée avec succès par le modèle.
Requêtes maximum par minute (RPM) | Requêtes de lot maximum dans la file de traitement | Requêtes de lot maximum par lot |
---|---|---|
50 | 100 000 | 100 000 |
Requêtes maximum par minute (RPM) | Requêtes de lot maximum dans la file de traitement | Requêtes de lot maximum par lot |
---|---|---|
50 | 100 000 | 100 000 |
Requêtes maximum par minute (RPM) | Requêtes de lot maximum dans la file de traitement | Requêtes de lot maximum par lot |
---|---|---|
1 000 | 200 000 | 100 000 |
Requêtes maximum par minute (RPM) | Requêtes de lot maximum dans la file de traitement | Requêtes de lot maximum par lot |
---|---|---|
2 000 | 300 000 | 100 000 |
Requêtes maximum par minute (RPM) | Requêtes de lot maximum dans la file de traitement | Requêtes de lot maximum par lot |
---|---|---|
4 000 | 500 000 | 100 000 |
Si vous recherchez des limites plus élevées pour un cas d’usage Entreprise, contactez les ventes via la Console Anthropic.
Limites de taux de contexte long
Lors de l’utilisation de Claude Sonnet 4 avec la fenêtre de contexte de 1M jetons activée, les limites de taux dédiées suivantes s’appliquent aux requêtes dépassant 200K jetons.
La fenêtre de contexte de 1M jetons est actuellement en bêta pour les organisations du niveau d’utilisation 4 et les organisations avec des limites de taux personnalisées. La fenêtre de contexte de 1M jetons n’est disponible que pour Claude Sonnet 4.
Jetons d’entrée maximum par minute (ITPM) | Jetons de sortie maximum par minute (OTPM) |
---|---|
500 000 | 100 000 |
Jetons d’entrée maximum par minute (ITPM) | Jetons de sortie maximum par minute (OTPM) |
---|---|
500 000 | 100 000 |
Pour des limites de taux de contexte long personnalisées pour les cas d’usage d’entreprise, contactez les ventes via la Console Anthropic.
Pour accéder à la fenêtre de contexte complète de 1M jetons avec une limite de taux ITPM de 500K, vous pouvez utiliser la mise en cache d’invite.
Définir des limites inférieures pour les espaces de travail
Afin de protéger les espaces de travail de votre organisation d’une surutilisation potentielle, vous pouvez définir des limites de dépenses et de taux personnalisées par espace de travail.
Exemple : Si la limite de votre organisation est de 40 000 jetons d’entrée par minute et 8 000 jetons de sortie par minute, vous pourriez limiter un espace de travail à 30 000 jetons totaux par minute. Cela protège les autres espaces de travail d’une surutilisation potentielle et assure une distribution plus équitable des ressources à travers votre organisation. Les jetons restants non utilisés par minute (ou plus, si cet espace de travail n’utilise pas la limite) sont alors disponibles pour d’autres espaces de travail.
Note :
- Vous ne pouvez pas définir de limites sur l’espace de travail par défaut.
- Si non définies, les limites d’espace de travail correspondent à la limite de l’organisation.
- Les limites à l’échelle de l’organisation s’appliquent toujours, même si les limites d’espace de travail s’additionnent pour donner plus.
- Le support pour les limites de jetons d’entrée et de sortie sera ajouté aux espaces de travail dans le futur.
En-têtes de réponse
La réponse API inclut des en-têtes qui vous montrent la limite de taux appliquée, l’utilisation actuelle, et quand la limite sera réinitialisée.
Les en-têtes suivants sont retournés :
En-tête | Description |
---|---|
retry-after | Le nombre de secondes à attendre jusqu’à ce que vous puissiez réessayer la requête. Les tentatives antérieures échoueront. |
anthropic-ratelimit-requests-limit | Le nombre maximum de requêtes autorisées dans toute période de limite de taux. |
anthropic-ratelimit-requests-remaining | Le nombre de requêtes restantes avant d’être limité par le taux. |
anthropic-ratelimit-requests-reset | Le moment où la limite de taux de requête sera entièrement reconstituée, fourni au format RFC 3339. |
anthropic-ratelimit-tokens-limit | Le nombre maximum de jetons autorisés dans toute période de limite de taux. |
anthropic-ratelimit-tokens-remaining | Le nombre de jetons restants (arrondi au millier le plus proche) avant d’être limité par le taux. |
anthropic-ratelimit-tokens-reset | Le moment où la limite de taux de jetons sera entièrement reconstituée, fourni au format RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Le nombre maximum de jetons d’entrée autorisés dans toute période de limite de taux. |
anthropic-ratelimit-input-tokens-remaining | Le nombre de jetons d’entrée restants (arrondi au millier le plus proche) avant d’être limité par le taux. |
anthropic-ratelimit-input-tokens-reset | Le moment où la limite de taux de jetons d’entrée sera entièrement reconstituée, fourni au format RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Le nombre maximum de jetons de sortie autorisés dans toute période de limite de taux. |
anthropic-ratelimit-output-tokens-remaining | Le nombre de jetons de sortie restants (arrondi au millier le plus proche) avant d’être limité par le taux. |
anthropic-ratelimit-output-tokens-reset | Le moment où la limite de taux de jetons de sortie sera entièrement reconstituée, fourni au format RFC 3339. |
anthropic-priority-input-tokens-limit | Le nombre maximum de jetons d’entrée de niveau Priorité autorisés dans toute période de limite de taux. (Niveau Priorité uniquement) |
anthropic-priority-input-tokens-remaining | Le nombre de jetons d’entrée de niveau Priorité restants (arrondi au millier le plus proche) avant d’être limité par le taux. (Niveau Priorité uniquement) |
anthropic-priority-input-tokens-reset | Le moment où la limite de taux de jetons d’entrée de niveau Priorité sera entièrement reconstituée, fourni au format RFC 3339. (Niveau Priorité uniquement) |
anthropic-priority-output-tokens-limit | Le nombre maximum de jetons de sortie de niveau Priorité autorisés dans toute période de limite de taux. (Niveau Priorité uniquement) |
anthropic-priority-output-tokens-remaining | Le nombre de jetons de sortie de niveau Priorité restants (arrondi au millier le plus proche) avant d’être limité par le taux. (Niveau Priorité uniquement) |
anthropic-priority-output-tokens-reset | Le moment où la limite de taux de jetons de sortie de niveau Priorité sera entièrement reconstituée, fourni au format RFC 3339. (Niveau Priorité uniquement) |
Les en-têtes anthropic-ratelimit-tokens-*
affichent les valeurs pour la limite la plus restrictive actuellement en vigueur. Par exemple, si vous avez dépassé la limite de jetons par minute de l’espace de travail, les en-têtes contiendront les valeurs de limite de taux de jetons par minute de l’espace de travail. Si les limites d’espace de travail ne s’appliquent pas, les en-têtes retourneront les jetons totaux restants, où le total est la somme des jetons d’entrée et de sortie. Cette approche assure que vous avez une visibilité sur la contrainte la plus pertinente sur votre utilisation actuelle de l’API.