Limites de débit
Pour atténuer les abus et gérer la capacité de notre API, nous avons mis en place des limites sur l’utilisation de l’API Claude par une organisation.
Nous avons deux types de limites :
- Les limites de dépenses fixent un coût mensuel maximum qu’une organisation peut encourir pour l’utilisation de l’API.
- Les limites de débit définissent le nombre maximum de requêtes API qu’une organisation peut effectuer sur une période définie.
Nous appliquons des limites configurées par le service au niveau de l’organisation, mais vous pouvez également définir des limites configurables par l’utilisateur pour les espaces de travail de votre organisation.
À propos de nos limites
- Les limites sont conçues pour prévenir l’abus de l’API, tout en minimisant l’impact sur les modèles d’utilisation courants des clients.
- Les limites sont définies par niveau d’utilisation, où chaque niveau est associé à un ensemble différent de limites de dépenses et de débit.
- Votre organisation augmentera automatiquement de niveau lorsque vous atteindrez certains seuils lors de l’utilisation de l’API.
- Les limites sont définies au niveau de l’organisation. Vous pouvez voir les limites de votre organisation sur la page des limites dans la Console Anthropic.
- Vous pouvez atteindre les limites de débit sur des intervalles plus courts. Par exemple, un débit de 60 requêtes par minute (RPM) peut être appliqué comme 1 requête par seconde. Des rafales courtes de requêtes à haut volume peuvent dépasser la limite de débit et entraîner des erreurs de limite de débit.
- Les limites décrites ci-dessous sont nos limites standard. Si vous recherchez des limites personnalisées plus élevées, contactez le service commercial via la Console Anthropic.
- Nous utilisons l’algorithme du seau à jetons pour effectuer la limitation du débit.
- Toutes les limites décrites ici représentent l’utilisation maximale autorisée, et non des minimums garantis. Ces limites sont conçues pour prévenir la surutilisation et assurer une distribution équitable des ressources entre les utilisateurs.
Limites de dépenses
Chaque niveau d’utilisation a une limite sur le montant que vous pouvez dépenser sur l’API chaque mois calendaire. Une fois que vous atteignez la limite de dépenses de votre niveau, jusqu’à ce que vous vous qualifiiez pour le niveau suivant, vous devrez attendre le mois suivant pour pouvoir utiliser l’API à nouveau.
Pour vous qualifier pour le niveau suivant, vous devez satisfaire une exigence de dépôt et une période d’attente obligatoire. Les niveaux supérieurs nécessitent des périodes d’attente plus longues. Notez que pour minimiser le risque de surfinancement de votre compte, vous ne pouvez pas déposer plus que votre limite de dépenses mensuelle.
Exigences pour avancer de niveau
Niveau d’utilisation | Achat de crédit | Attente après le premier achat | Utilisation maximale par mois |
---|---|---|---|
Niveau 1 | 5 | ||
Niveau 2 | 40 | ||
Niveau 3 | 200 | ||
Niveau 4 | 400 | ||
Facturation mensuelle | N/A | N/A | N/A |
Limites de débit mises à jour
Nos limites de débit pour l’API Messages sont mesurées en requêtes par minute (RPM), tokens d’entrée par minute (ITPM), et tokens de sortie par minute (OTPM) pour chaque classe de modèle. Si vous dépassez l’une des limites de débit, vous obtiendrez une erreur 429. Cliquez sur le niveau de limite de débit pour voir les limites pertinentes.
Les limites de débit sont suivies par modèle. Par conséquent, les modèles au sein du même niveau ne partagent pas une limite de débit.
Modèle | Maximum de requêtes par minute (RPM) | Maximum de tokens d’entrée par minute (ITPM) | Maximum de tokens de sortie par minute (OTPM) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40 000 | 8 000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40 000 | 8 000 |
Claude 3.5 Haiku | 50 | 50 000 | 10 000 |
Claude 3 Opus | 50 | 20 000 | 4 000 |
Claude 3 Sonnet | 50 | 40 000 | 8 000 |
Claude 3 Haiku | 50 | 50 000 | 10 000 |
Les limites OTPM sont estimées sur la base de max_tokens
au début de chaque requête, et l’estimation est ajustée à la fin de la requête pour refléter le nombre réel de tokens de sortie utilisés. Si vous atteignez les limites OTPM plus tôt que prévu, essayez de réduire max_tokens
pour correspondre à la taille de vos complétions.
API de lots de messages
L’API de lots de messages a son propre ensemble de limites de débit qui sont partagées entre tous les modèles. Celles-ci incluent une limite de requêtes par minute (RPM) pour tous les points de terminaison de l’API et une limite sur le nombre de requêtes par lot qui peuvent être dans la file d’attente de traitement en même temps. Une “requête par lot” fait ici référence à une partie d’un lot de messages. Vous pouvez créer un lot de messages contenant des milliers de requêtes par lot, chacune comptant pour cette limite. Une requête par lot est considérée comme faisant partie de la file d’attente de traitement lorsqu’elle n’a pas encore été traitée avec succès par le modèle.
Maximum de requêtes par minute (RPM) | Maximum de requêtes par lot dans la file d’attente de traitement |
---|---|
50 | 100 000 |
Définition de limites inférieures pour les espaces de travail
Afin de protéger les espaces de travail de votre organisation contre une surutilisation potentielle, vous pouvez définir des limites de dépenses et de débit personnalisées par espace de travail.
Exemple : Si la limite de votre organisation est de 48 000 tokens par minute (40 000 tokens d’entrée et 8 000 tokens de sortie), vous pourriez limiter un espace de travail à 30 000 tokens totaux par minute. Cela protège les autres espaces de travail d’une surutilisation potentielle et assure une distribution plus équitable des ressources dans votre organisation. Les tokens par minute restants non utilisés (ou plus, si cet espace de travail n’utilise pas la limite) sont alors disponibles pour les autres espaces de travail.
Note :
- Vous ne pouvez pas définir de limites sur l’espace de travail par défaut.
- Si elles ne sont pas définies, les limites de l’espace de travail correspondent à la limite de l’organisation.
- Les limites à l’échelle de l’organisation s’appliquent toujours, même si les limites des espaces de travail s’additionnent à plus.
- La prise en charge des limites de tokens d’entrée et de sortie sera ajoutée aux espaces de travail à l’avenir.
En-têtes de réponse
La réponse de l’API inclut des en-têtes qui vous montrent la limite de débit appliquée, l’utilisation actuelle et quand la limite sera réinitialisée.
Les en-têtes suivants sont renvoyés :
En-tête | Description |
---|---|
anthropic-ratelimit-requests-limit | Le nombre maximum de requêtes autorisées dans une période de limite de débit. |
anthropic-ratelimit-requests-remaining | Le nombre de requêtes restantes avant d’être limité en débit. |
anthropic-ratelimit-requests-reset | L’heure à laquelle la limite de débit des requêtes sera réinitialisée, fournie au format RFC 3339. |
anthropic-ratelimit-tokens-limit | Le nombre maximum de tokens autorisés dans une période de limite de débit. |
anthropic-ratelimit-tokens-remaining | Le nombre de tokens restants (arrondi au millier le plus proche) avant d’être limité en débit. |
anthropic-ratelimit-tokens-reset | L’heure à laquelle la limite de débit des tokens sera réinitialisée, fournie au format RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Le nombre maximum de tokens d’entrée autorisés dans une période de limite de débit. |
anthropic-ratelimit-input-tokens-remaining | Le nombre de tokens d’entrée restants (arrondi au millier le plus proche) avant d’être limité en débit. |
anthropic-ratelimit-input-tokens-reset | L’heure à laquelle la limite de débit des tokens d’entrée sera réinitialisée, fournie au format RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Le nombre maximum de tokens de sortie autorisés dans une période de limite de débit. |
anthropic-ratelimit-output-tokens-remaining | Le nombre de tokens de sortie restants (arrondi au millier le plus proche) avant d’être limité en débit. |
anthropic-ratelimit-output-tokens-reset | L’heure à laquelle la limite de débit des tokens de sortie sera réinitialisée, fournie au format RFC 3339. |
retry-after | Le nombre de secondes avant de pouvoir réessayer la requête. |
Les en-têtes anthropic-ratelimit-tokens-*
affichent les valeurs pour la limite la plus restrictive actuellement en vigueur. Par exemple, si vous avez dépassé la limite de tokens par minute de l’espace de travail, les en-têtes contiendront les valeurs de limite de débit de tokens par minute de l’espace de travail. Si les limites de l’espace de travail ne s’appliquent pas, les en-têtes renverront le total des tokens restants, où le total est la somme des tokens d’entrée et de sortie. Cette approche garantit que vous avez une visibilité sur la contrainte la plus pertinente sur votre utilisation actuelle de l’API.
Limites de débit héritées
Nos limites de débit étaient auparavant mesurées en requêtes par minute, tokens par minute et tokens par jour pour chaque classe de modèle. Si vous dépassez l’une des limites de débit, vous obtiendrez une erreur 429. Cliquez sur le niveau de limite de débit pour voir les limites pertinentes.
Les limites de débit sont suivies par modèle, par conséquent les modèles au sein du même niveau ne partagent pas une limite de débit.
Modèle | Maximum de requêtes par minute (RPM) | Maximum de tokens par minute (TPM) | Maximum de tokens par jour (TPD) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40 000 | 1 000 000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40 000 | 1 000 000 |
Claude 3.5 Haiku | 50 | 50 000 | 5 000 000 |
Claude 3 Opus | 50 | 20 000 | 1 000 000 |
Claude 3 Sonnet | 50 | 40 000 | 1 000 000 |
Claude 3 Haiku | 50 | 50 000 | 5 000 000 |
Was this page helpful?