Pour atténuer les abus et gérer la capacité de notre API, nous avons mis en place des limites sur l’utilisation que peut faire une organisation de l’API Claude.
Niveau d’utilisation | Achat de crédit | Utilisation max par mois |
---|---|---|
Niveau 1 | $5 | $100 |
Niveau 2 | $40 | $500 |
Niveau 3 | $200 | $1,000 |
Niveau 4 | $400 | $5,000 |
Facturation mensuelle | N/A | N/A |
retry-after
indiquant combien de temps attendre.
input_tokens
et cache_creation_input_tokens
vers les limites de taux ITPM.
cache_read_input_tokens
comptent également vers les limites de taux ITPM. L’ITPM maximum pour ces modèles est marqué avec † dans les tableaux de limites de taux ci-dessous.Pour tous les autres modèles, cache_read_input_tokens
ne comptent pas vers les limites de taux ITPM (bien qu’ils soient toujours facturés).max_tokens
au début de chaque requête, et l’estimation est ajustée à la fin de la requête pour refléter le nombre réel de jetons de sortie utilisés.
Si vous atteignez les limites OTPM plus tôt que prévu, essayez de réduire max_tokens
pour mieux approximer la taille de vos complétions.
Les limites de taux sont appliquées séparément pour chaque modèle ; par conséquent, vous pouvez utiliser différents modèles jusqu’à leurs limites respectives simultanément.
Vous pouvez vérifier vos limites de taux actuelles et votre comportement dans la Console Anthropic.
context-1m-2025-08-07
avec Claude Sonnet 4, des limites de taux séparées s’appliquent. Voir Limites de taux de contexte long ci-dessous.Modèle | Requêtes maximum par minute (RPM) | Jetons d’entrée maximum par minute (ITPM) | Jetons de sortie maximum par minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (déprécié) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (déprécié) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (déprécié) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
cache_read_input_tokens
vers l’utilisation ITPM.
Requêtes maximum par minute (RPM) | Requêtes de lot maximum dans la file d’attente de traitement | Requêtes de lot maximum par lot |
---|---|---|
50 | 100,000 | 100,000 |
Jetons d’entrée maximum par minute (ITPM) | Jetons de sortie maximum par minute (OTPM) |
---|---|
1,000,000 | 200,000 |
En-tête | Description |
---|---|
retry-after | Le nombre de secondes à attendre jusqu’à ce que vous puissiez réessayer la requête. Les tentatives plus tôt échoueront. |
anthropic-ratelimit-requests-limit | Le nombre maximum de requêtes autorisées dans toute période de limite de taux. |
anthropic-ratelimit-requests-remaining | Le nombre de requêtes restantes avant d’être limité par le taux. |
anthropic-ratelimit-requests-reset | Le moment où la limite de taux de requête sera entièrement reconstituée, fourni au format RFC 3339. |
anthropic-ratelimit-tokens-limit | Le nombre maximum de jetons autorisés dans toute période de limite de taux. |
anthropic-ratelimit-tokens-remaining | Le nombre de jetons restants (arrondi au millier le plus proche) avant d’être limité par le taux. |
anthropic-ratelimit-tokens-reset | Le moment où la limite de taux de jetons sera entièrement reconstituée, fourni au format RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Le nombre maximum de jetons d’entrée autorisés dans toute période de limite de taux. |
anthropic-ratelimit-input-tokens-remaining | Le nombre de jetons d’entrée restants (arrondi au millier le plus proche) avant d’être limité par le taux. |
anthropic-ratelimit-input-tokens-reset | Le moment où la limite de taux de jetons d’entrée sera entièrement reconstituée, fourni au format RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Le nombre maximum de jetons de sortie autorisés dans toute période de limite de taux. |
anthropic-ratelimit-output-tokens-remaining | Le nombre de jetons de sortie restants (arrondi au millier le plus proche) avant d’être limité par le taux. |
anthropic-ratelimit-output-tokens-reset | Le moment où la limite de taux de jetons de sortie sera entièrement reconstituée, fourni au format RFC 3339. |
anthropic-priority-input-tokens-limit | Le nombre maximum de jetons d’entrée de niveau Priorité autorisés dans toute période de limite de taux. (Niveau Priorité seulement) |
anthropic-priority-input-tokens-remaining | Le nombre de jetons d’entrée de niveau Priorité restants (arrondi au millier le plus proche) avant d’être limité par le taux. (Niveau Priorité seulement) |
anthropic-priority-input-tokens-reset | Le moment où la limite de taux de jetons d’entrée de niveau Priorité sera entièrement reconstituée, fourni au format RFC 3339. (Niveau Priorité seulement) |
anthropic-priority-output-tokens-limit | Le nombre maximum de jetons de sortie de niveau Priorité autorisés dans toute période de limite de taux. (Niveau Priorité seulement) |
anthropic-priority-output-tokens-remaining | Le nombre de jetons de sortie de niveau Priorité restants (arrondi au millier le plus proche) avant d’être limité par le taux. (Niveau Priorité seulement) |
anthropic-priority-output-tokens-reset | Le moment où la limite de taux de jetons de sortie de niveau Priorité sera entièrement reconstituée, fourni au format RFC 3339. (Niveau Priorité seulement) |
anthropic-ratelimit-tokens-*
affichent les valeurs pour la limite la plus restrictive actuellement en vigueur. Par exemple, si vous avez dépassé la limite de jetons par minute de l’Espace de travail, les en-têtes contiendront les valeurs de limite de taux de jetons par minute de l’Espace de travail. Si les limites d’Espace de travail ne s’appliquent pas, les en-têtes retourneront les jetons totaux restants, où le total est la somme des jetons d’entrée et de sortie. Cette approche assure que vous avez une visibilité sur la contrainte la plus pertinente sur votre utilisation actuelle de l’API.