Le traitement par lots est une approche puissante pour gérer efficacement de grands volumes de requêtes. Au lieu de traiter les requêtes une par une avec des réponses immédiates, le traitement par lots vous permet de soumettre plusieurs requêtes ensemble pour un traitement asynchrone. Ce modèle est particulièrement utile lorsque :

Vous devez traiter de grands volumes de données
Des réponses immédiates ne sont pas nécessaires
Vous souhaitez optimiser la rentabilité
Vous effectuez des évaluations ou des analyses à grande échelle

L’API Message Batches est notre première implémentation de ce modèle.

API Message Batches

L’API Message Batches est un moyen puissant et rentable de traiter de manière asynchrone de grands volumes de requêtes Messages. Cette approche est bien adaptée aux tâches qui ne nécessitent pas de réponses immédiates, la plupart des lots se terminant en moins d’une heure tout en réduisant les coûts de 50 % et en augmentant le débit.

Vous pouvez explorer directement la référence de l’API, en plus de ce guide.

Comment fonctionne l’API Message Batches

Lorsque vous envoyez une requête à l’API Message Batches :

Le système crée un nouveau lot de messages avec les requêtes Messages fournies.
Le lot est ensuite traité de manière asynchrone, chaque requête étant traitée indépendamment.
Vous pouvez interroger l’état du lot et récupérer les résultats lorsque le traitement est terminé pour toutes les requêtes.

Cela est particulièrement utile pour les opérations en masse qui ne nécessitent pas de résultats immédiats, telles que :

Évaluations à grande échelle : Traiter efficacement des milliers de cas de test.
Modération de contenu : Analyser de grands volumes de contenu généré par les utilisateurs de manière asynchrone.
Analyse de données : Générer des insights ou des résumés pour de grands ensembles de données.
Génération de contenu en masse : Créer de grandes quantités de texte à diverses fins (par exemple, descriptions de produits, résumés d’articles).

Limitations des lots

Un lot de messages est limité à 100 000 requêtes de messages ou à une taille de 256 Mo, selon la première limite atteinte.
Nous traitons chaque lot aussi rapidement que possible, la plupart des lots étant terminés en moins d’une heure. Vous pourrez accéder aux résultats du lot lorsque tous les messages auront été traités ou après 24 heures, selon la première éventualité. Les lots expireront si le traitement n’est pas terminé dans les 24 heures.
Les résultats des lots sont disponibles pendant 29 jours après leur création. Après cela, vous pourrez toujours consulter le lot, mais ses résultats ne seront plus disponibles au téléchargement.
Les lots sont limités à un Workspace. Vous pouvez consulter tous les lots — et leurs résultats — qui ont été créés dans le Workspace auquel appartient votre clé API.
Les limites de débit s’appliquent à la fois aux requêtes HTTP de l’API Batches et au nombre de requêtes dans un lot en attente de traitement. Voir Limites de débit de l’API Message Batches. De plus, nous pouvons ralentir le traitement en fonction de la demande actuelle et de votre volume de requêtes. Dans ce cas, vous pourriez voir plus de requêtes expirer après 24 heures.
En raison du débit élevé et du traitement simultané, les lots peuvent légèrement dépasser la limite de dépenses configurée pour votre Workspace.

Modèles pris en charge

L’API Message Batches prend actuellement en charge :

Claude Opus 4 (claude-opus-4-20250514)
Claude Sonnet 4 (claude-sonnet-4-20250514)
Claude Sonnet 3.7 (claude-3-7-sonnet-20250219)
Claude Sonnet 3.5 (claude-3-5-sonnet-20240620 et claude-3-5-sonnet-20241022)
Claude Haiku 3.5 (claude-3-5-haiku-20241022)
Claude Haiku 3 (claude-3-haiku-20240307)
Claude Opus 3 (claude-3-opus-20240229)

Ce qui peut être traité par lots

Toute requête que vous pouvez faire à l’API Messages peut être incluse dans un lot. Cela comprend :

Vision
Utilisation d’outils
Messages système
Conversations à plusieurs tours
Toutes les fonctionnalités bêta

Comme chaque requête du lot est traitée indépendamment, vous pouvez mélanger différents types de requêtes au sein d’un même lot.

Tarification

L’API Batches offre des économies significatives. Toute utilisation est facturée à 50 % des prix standard de l’API.

Model	Batch input	Batch output
Claude Opus 4	$7.50 / MTok	$37.50 / MTok
Claude Sonnet 4	$1.50 / MTok	$7.50 / MTok
Claude Sonnet 3.7	$1.50 / MTok	$7.50 / MTok
Claude Sonnet 3.5	$1.50 / MTok	$7.50 / MTok
Claude Haiku 3.5	$0.40 / MTok	$2 / MTok
Claude Opus 3	$7.50 / MTok	$37.50 / MTok
Claude Haiku 3	$0.125 / MTok	$0.625 / MTok

Comment utiliser l’API Message Batches

Préparer et créer votre lot

Un lot de messages est composé d’une liste de requêtes pour créer un message. La forme d’une requête individuelle comprend :

Un custom_id unique pour identifier la requête Messages
Un objet params avec les paramètres standard de l’API Messages

Vous pouvez créer un lot en passant cette liste dans le paramètre requests :

curl https://api.anthropic.com/v1/messages/batches \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "requests": [
        {
            "custom_id": "my-first-request",
            "params": {
                "model": "claude-opus-4-20250514",
                "max_tokens": 1024,
                "messages": [
                    {"role": "user", "content": "Hello, world"}
                ]
            }
        },
        {
            "custom_id": "my-second-request",
            "params": {
                "model": "claude-opus-4-20250514",
                "max_tokens": 1024,
                "messages": [
                    {"role": "user", "content": "Hi again, friend"}
                ]
            }
        }
    ]
}'

Dans cet exemple, deux requêtes distinctes sont regroupées pour un traitement asynchrone. Chaque requête a un custom_id unique et contient les paramètres standard que vous utiliseriez pour un appel à l’API Messages.

Testez vos requêtes par lots avec l’API Messages

La validation de l’objet params pour chaque requête de message est effectuée de manière asynchrone, et les erreurs de validation sont renvoyées lorsque le traitement de l’ensemble du lot est terminé. Vous pouvez vous assurer que vous construisez correctement votre entrée en vérifiant d’abord la forme de votre requête avec l’API Messages.

Lorsqu’un lot est créé pour la première fois, la réponse aura un statut de traitement in_progress.

JSON
{
  "id": "msgbatch_01HkcTjaV5uDC8jWR4ZsDV8d",
  "type": "message_batch",
  "processing_status": "in_progress",
  "request_counts": {
    "processing": 2,
    "succeeded": 0,
    "errored": 0,
    "canceled": 0,
    "expired": 0
  },
  "ended_at": null,
  "created_at": "2024-09-24T18:37:24.100435Z",
  "expires_at": "2024-09-25T18:37:24.100435Z",
  "cancel_initiated_at": null,
  "results_url": null
}

Suivi de votre lot

Le champ processing_status du lot de messages indique l’étape de traitement dans laquelle se trouve le lot. Il commence par in_progress, puis passe à ended une fois que toutes les requêtes du lot ont terminé leur traitement et que les résultats sont prêts. Vous pouvez surveiller l’état de votre lot en visitant la Console, ou en utilisant le point de terminaison de récupération :

curl https://api.anthropic.com/v1/messages/batches/msgbatch_01HkcTjaV5uDC8jWR4ZsDV8d \
 --header "x-api-key: $ANTHROPIC_API_KEY" \
 --header "anthropic-version: 2023-06-01" \
 | sed -E 's/.*"id":"([^"]+)".*"processing_status":"([^"]+)".*/Batch \1 processing status is \2/'

Vous pouvez interroger ce point de terminaison pour savoir quand le traitement est terminé.

Récupération des résultats du lot

Une fois le traitement du lot terminé, chaque requête Messages dans le lot aura un résultat. Il existe 4 types de résultats :

Type de résultat	Description
`succeeded`	La requête a réussi. Inclut le résultat du message.
`errored`	La requête a rencontré une erreur et un message n’a pas été créé. Les erreurs possibles incluent des requêtes invalides et des erreurs de serveur internes. Vous ne serez pas facturé pour ces requêtes.
`canceled`	L’utilisateur a annulé le lot avant que cette requête ne puisse être envoyée au modèle. Vous ne serez pas facturé pour ces requêtes.
`expired`	Le lot a atteint son expiration de 24 heures avant que cette requête ne puisse être envoyée au modèle. Vous ne serez pas facturé pour ces requêtes.

Vous verrez un aperçu de vos résultats avec les request_counts du lot, qui indique combien de requêtes ont atteint chacun de ces quatre états.

Les résultats du lot sont disponibles au téléchargement à la propriété results_url du lot de messages, et si l’autorisation de l’organisation le permet, dans la Console. En raison de la taille potentiellement importante des résultats, il est recommandé de diffuser les résultats plutôt que de les télécharger tous en une fois.

#!/bin/sh
curl "https://api.anthropic.com/v1/messages/batches/msgbatch_01HkcTjaV5uDC8jWR4ZsDV8d" \
  --header "anthropic-version: 2023-06-01" \
  --header "x-api-key: $ANTHROPIC_API_KEY" \
  | grep -o '"results_url":[[:space:]]*"[^"]*"' \
  | cut -d'"' -f4 \
  | while read -r url; do
    curl -s "$url" \
      --header "anthropic-version: 2023-06-01" \
      --header "x-api-key: $ANTHROPIC_API_KEY" \
      | sed 's/}{/}\n{/g' \
      | while IFS= read -r line
    do
      result_type=$(echo "$line" | sed -n 's/.*"result":[[:space:]]*{[[:space:]]*"type":[[:space:]]*"\([^"]*\)".*/\1/p')
      custom_id=$(echo "$line" | sed -n 's/.*"custom_id":[[:space:]]*"\([^"]*\)".*/\1/p')
      error_type=$(echo "$line" | sed -n 's/.*"error":[[:space:]]*{[[:space:]]*"type":[[:space:]]*"\([^"]*\)".*/\1/p')

      case "$result_type" in
        "succeeded")
          echo "Success! $custom_id"
          ;;
        "errored")
          if [ "$error_type" = "invalid_request" ]; then
            # Request body must be fixed before re-sending request
            echo "Validation error: $custom_id"
          else
            # Request can be retried directly
            echo "Server error: $custom_id"
          fi
          ;;
        "expired")
          echo "Expired: $line"
          ;;
      esac
    done
  done

Les résultats seront au format .jsonl, où chaque ligne est un objet JSON valide représentant le résultat d’une seule requête dans le lot de messages. Pour chaque résultat diffusé, vous pouvez faire quelque chose de différent en fonction de son custom_id et de son type de résultat. Voici un exemple d’ensemble de résultats :

.jsonl file
{"custom_id":"my-second-request","result":{"type":"succeeded","message":{"id":"msg_014VwiXbi91y3JMjcpyGBHX5","type":"message","role":"assistant","model":"claude-opus-4-20250514","content":[{"type":"text","text":"Hello again! It's nice to see you. How can I assist you today? Is there anything specific you'd like to chat about or any questions you have?"}],"stop_reason":"end_turn","stop_sequence":null,"usage":{"input_tokens":11,"output_tokens":36}}}}
{"custom_id":"my-first-request","result":{"type":"succeeded","message":{"id":"msg_01FqfsLoHwgeFbguDgpz48m7","type":"message","role":"assistant","model":"claude-opus-4-20250514","content":[{"type":"text","text":"Hello! How can I assist you today? Feel free to ask me any questions or let me know if there's anything you'd like to chat about."}],"stop_reason":"end_turn","stop_sequence":null,"usage":{"input_tokens":10,"output_tokens":34}}}}

Si votre résultat comporte une erreur, son result.error sera défini selon notre forme d’erreur standard.

Les résultats du lot peuvent ne pas correspondre à l’ordre d’entrée

Les résultats du lot peuvent être renvoyés dans n’importe quel ordre et peuvent ne pas correspondre à l’ordre des requêtes lors de la création du lot. Dans l’exemple ci-dessus, le résultat de la deuxième requête du lot est renvoyé avant la première. Pour faire correspondre correctement les résultats à leurs requêtes correspondantes, utilisez toujours le champ custom_id.

Utilisation de la mise en cache des prompts avec les lots de messages

L’API Message Batches prend en charge la mise en cache des prompts, ce qui vous permet de réduire potentiellement les coûts et le temps de traitement des requêtes par lots. Les réductions de prix de la mise en cache des prompts et des lots de messages peuvent s’additionner, offrant des économies encore plus importantes lorsque les deux fonctionnalités sont utilisées ensemble. Cependant, comme les requêtes par lots sont traitées de manière asynchrone et simultanée, les correspondances de cache sont fournies sur la base du meilleur effort. Les utilisateurs connaissent généralement des taux de correspondance de cache allant de 30 % à 98 %, selon leurs modèles de trafic.

Pour maximiser la probabilité de correspondances de cache dans vos requêtes par lots :

Incluez des blocs cache_control identiques dans chaque requête Message de votre lot
Maintenez un flux constant de requêtes pour éviter que les entrées de cache n’expirent après leur durée de vie de 5 minutes
Structurez vos requêtes pour partager autant de contenu mis en cache que possible

Exemple d’implémentation de la mise en cache des prompts dans un lot :

curl https://api.anthropic.com/v1/messages/batches \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "requests": [
        {
            "custom_id": "my-first-request",
            "params": {
                "model": "claude-opus-4-20250514",
                "max_tokens": 1024,
                "system": [
                    {
                        "type": "text",
                        "text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n"
                    },
                    {
                        "type": "text",
                        "text": "<the entire contents of Pride and Prejudice>",
                        "cache_control": {"type": "ephemeral"}
                    }
                ],
                "messages": [
                    {"role": "user", "content": "Analyze the major themes in Pride and Prejudice."}
                ]
            }
        },
        {
            "custom_id": "my-second-request",
            "params": {
                "model": "claude-opus-4-20250514",
                "max_tokens": 1024,
                "system": [
                    {
                        "type": "text",
                        "text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n"
                    },
                    {
                        "type": "text",
                        "text": "<the entire contents of Pride and Prejudice>",
                        "cache_control": {"type": "ephemeral"}
                    }
                ],
                "messages": [
                    {"role": "user", "content": "Write a summary of Pride and Prejudice."}
                ]
            }
        }
    ]
}'

Dans cet exemple, les deux requêtes du lot incluent des messages système identiques et le texte complet de Pride and Prejudice marqué avec cache_control pour augmenter la probabilité de correspondances de cache.

Meilleures pratiques pour un traitement par lots efficace

Pour tirer le meilleur parti de l’API Batches :

Surveillez régulièrement l’état de traitement des lots et implémentez une logique de nouvelle tentative appropriée pour les requêtes ayant échoué.
Utilisez des valeurs custom_id significatives pour faire facilement correspondre les résultats aux requêtes, car l’ordre n’est pas garanti.
Envisagez de diviser les très grands ensembles de données en plusieurs lots pour une meilleure gestion.
Effectuez un essai à sec d’une seule forme de requête avec l’API Messages pour éviter les erreurs de validation.

Résolution des problèmes courants

En cas de comportement inattendu :

Vérifiez que la taille totale de la requête par lot ne dépasse pas 256 Mo. Si la taille de la requête est trop grande, vous pourriez obtenir une erreur 413 request_too_large.
Vérifiez que vous utilisez des modèles pris en charge pour toutes les requêtes du lot.
Assurez-vous que chaque requête du lot a un custom_id unique.
Assurez-vous qu’il s’est écoulé moins de 29 jours depuis l’heure created_at du lot (et non l’heure ended_at du traitement). Si plus de 29 jours se sont écoulés, les résultats ne seront plus visibles.
Confirmez que le lot n’a pas été annulé.

Notez que l’échec d’une requête dans un lot n’affecte pas le traitement des autres requêtes.

Stockage et confidentialité des lots

Isolation des Workspaces : Les lots sont isolés dans le Workspace où ils sont créés. Ils ne peuvent être accessibles que par les clés API associées à ce Workspace, ou par les utilisateurs autorisés à consulter les lots du Workspace dans la Console.
Disponibilité des résultats : Les résultats des lots sont disponibles pendant 29 jours après la création du lot, ce qui laisse amplement le temps pour la récupération et le traitement.

FAQ

Combien de temps faut-il pour traiter un lot ?

L'API Batches est-elle disponible pour tous les modèles ?

Puis-je utiliser l'API Message Batches avec d'autres fonctionnalités de l'API ?

Comment l'API Message Batches affecte-t-elle la tarification ?

Puis-je mettre à jour un lot après qu'il ait été soumis ?

Existe-t-il des limites de débit pour l'API Message Batches et interagissent-elles avec les limites de débit de l'API Messages ?

Comment gérer les erreurs dans mes requêtes par lots ?

Comment l'API Message Batches gère-t-elle la confidentialité et la séparation des données ?

Puis-je utiliser la mise en cache des prompts dans l'API Message Batches ?

Messages en streaming Citations

On this page

API Message Batches
Comment fonctionne l’API Message Batches
Limitations des lots
Modèles pris en charge
Ce qui peut être traité par lots
Tarification
Comment utiliser l’API Message Batches
Préparer et créer votre lot
Suivi de votre lot
Récupération des résultats du lot
Utilisation de la mise en cache des prompts avec les lots de messages
Meilleures pratiques pour un traitement par lots efficace
Résolution des problèmes courants
Stockage et confidentialité des lots
FAQ

Premiers pas

Modèles et tarifs

En savoir plus sur Claude

Capacités

Outils

Protocole de contexte de modèle (MCP)

Cas d'usage

Ingénierie de prompt

Tester et évaluer

Renforcer les garde-fous

Centre juridique

Traitement par lots

API Message Batches

Comment fonctionne l’API Message Batches

Limitations des lots

Modèles pris en charge

Ce qui peut être traité par lots

Tarification

Comment utiliser l’API Message Batches

Préparer et créer votre lot

Suivi de votre lot

Récupération des résultats du lot

Utilisation de la mise en cache des prompts avec les lots de messages

Meilleures pratiques pour un traitement par lots efficace

Résolution des problèmes courants

Stockage et confidentialité des lots

FAQ

Premiers pas

Modèles et tarifs

En savoir plus sur Claude

Capacités

Outils

Protocole de contexte de modèle (MCP)

Cas d'usage

Ingénierie de prompt

**Tester et évaluer**

Renforcer les garde-fous

Centre juridique

​API Message Batches

​Comment fonctionne l’API Message Batches

​Limitations des lots

​Modèles pris en charge

​Ce qui peut être traité par lots

​Tarification

​Comment utiliser l’API Message Batches

​Préparer et créer votre lot

​Suivi de votre lot

​Récupération des résultats du lot

​Utilisation de la mise en cache des prompts avec les lots de messages

​Meilleures pratiques pour un traitement par lots efficace

​Résolution des problèmes courants

​Stockage et confidentialité des lots

​FAQ

Tester et évaluer

API Message Batches

Comment fonctionne l’API Message Batches

Limitations des lots

Modèles pris en charge

Ce qui peut être traité par lots

Tarification

Comment utiliser l’API Message Batches

Préparer et créer votre lot

Suivi de votre lot

Récupération des résultats du lot

Utilisation de la mise en cache des prompts avec les lots de messages

Meilleures pratiques pour un traitement par lots efficace

Résolution des problèmes courants

Stockage et confidentialité des lots

FAQ