Vision
Les familles de modèles Claude 3 et 4 sont dotées de nouvelles capacités de vision qui permettent à Claude de comprendre et d’analyser des images, ouvrant ainsi des possibilités passionnantes d’interaction multimodale.
Ce guide décrit comment travailler avec des images dans Claude, y compris les meilleures pratiques, des exemples de code et les limitations à garder à l’esprit.
Comment utiliser la vision
Utilisez les capacités de vision de Claude via :
- claude.ai. Téléchargez une image comme vous le feriez pour un fichier, ou glissez-déposez une image directement dans la fenêtre de discussion.
- Le Console Workbench. Si vous sélectionnez un modèle qui accepte les images (modèles Claude 3 et 4 uniquement), un bouton pour ajouter des images apparaît en haut à droite de chaque bloc de message Utilisateur.
- Requête API. Consultez les exemples dans ce guide.
Avant de télécharger
Principes de base et limites
Vous pouvez inclure plusieurs images dans une seule requête (jusqu’à 20 pour claude.ai et 100 pour les requêtes API). Claude analysera toutes les images fournies lors de la formulation de sa réponse. Cela peut être utile pour comparer ou contraster des images.
Si vous soumettez une image plus grande que 8000x8000 px, elle sera rejetée. Si vous soumettez plus de 20 images dans une seule requête API, cette limite est de 2000x2000 px.
Évaluer la taille de l’image
Pour des performances optimales, nous recommandons de redimensionner les images avant de les télécharger si elles sont trop grandes. Si le côté long de votre image dépasse 1568 pixels, ou si votre image représente plus de ~1 600 tokens, elle sera d’abord redimensionnée, en préservant les proportions, jusqu’à ce qu’elle soit dans les limites de taille.
Si votre image d’entrée est trop grande et doit être redimensionnée, cela augmentera la latence du time-to-first-token, sans vous donner de performances supplémentaires du modèle. Les très petites images de moins de 200 pixels sur un côté donné peuvent dégrader les performances.
Pour améliorer le time-to-first-token, nous recommandons de redimensionner les images à pas plus de 1,15 mégapixels (et dans les limites de 1568 pixels dans les deux dimensions).
Voici un tableau des tailles d’images maximales acceptées par notre API qui ne seront pas redimensionnées pour les formats courants. Avec le modèle Claude Sonnet 3.7, ces images utilisent environ 1 600 tokens et coûtent environ 4,80 $/1 000 images.
Format | Taille d’image |
---|---|
1:1 | 1092x1092 px |
3:4 | 951x1268 px |
2:3 | 896x1344 px |
9:16 | 819x1456 px |
1:2 | 784x1568 px |
Calculer les coûts des images
Chaque image que vous incluez dans une requête à Claude compte dans votre utilisation de tokens. Pour calculer le coût approximatif, multipliez le nombre approximatif de tokens d’image par le prix par token du modèle que vous utilisez.
Si votre image n’a pas besoin d’être redimensionnée, vous pouvez estimer le nombre de tokens utilisés grâce à cet algorithme : tokens = (largeur px * hauteur px)/750
Voici des exemples de tokenisation approximative et de coûts pour différentes tailles d’images dans les contraintes de taille de notre API, basés sur le prix par token de Claude Sonnet 3.7 de 3 $ par million de tokens d’entrée :
Taille d’image | Nombre de tokens | Coût / image | Coût / 1 000 images |
---|---|---|---|
200x200 px (0,04 mégapixels) | ~54 | ~0,00016 $ | ~0,16 $ |
1000x1000 px (1 mégapixel) | ~1334 | ~0,004 $ | ~4,00 $ |
1092x1092 px (1,19 mégapixels) | ~1590 | ~0,0048 $ | ~4,80 $ |
Assurer la qualité de l’image
Lorsque vous fournissez des images à Claude, gardez à l’esprit les points suivants pour obtenir les meilleurs résultats :
- Format d’image : Utilisez un format d’image pris en charge : JPEG, PNG, GIF ou WebP.
- Clarté de l’image : Assurez-vous que les images sont claires et pas trop floues ou pixelisées.
- Texte : Si l’image contient du texte important, assurez-vous qu’il est lisible et pas trop petit. Évitez de recadrer le contexte visuel clé juste pour agrandir le texte.
Exemples de prompts
De nombreuses techniques de prompt qui fonctionnent bien pour les interactions textuelles avec Claude peuvent également être appliquées aux prompts basés sur des images.
Ces exemples démontrent les structures de prompts recommandées impliquant des images.
Tout comme avec le placement des requêtes de documents, Claude fonctionne mieux lorsque les images viennent avant le texte. Les images placées après le texte ou interpolées avec du texte fonctionneront toujours bien, mais si votre cas d’utilisation le permet, nous recommandons une structure image-puis-texte.
À propos des exemples de prompts
Les exemples suivants montrent comment utiliser les capacités de vision de Claude en utilisant différents langages de programmation et approches. Vous pouvez fournir des images à Claude de trois façons :
- Comme une image encodée en base64 dans des blocs de contenu
image
- Comme une référence URL à une image hébergée en ligne
- En utilisant l’API Files (télécharger une fois, utiliser plusieurs fois)
Les exemples de prompts en base64 utilisent ces variables :
Voici des exemples de comment inclure des images dans une requête Messages API en utilisant des images encodées en base64 et des références URL :
Exemple d’image encodée en base64
Exemple d’image basée sur URL
Exemple d’image avec l’API Files
Pour les images que vous utiliserez à plusieurs reprises ou lorsque vous souhaitez éviter les frais d’encodage, utilisez l’API Files :
Voir Exemples d’API Messages pour plus d’exemples de code et de détails sur les paramètres.
Limitations
Bien que les capacités de compréhension d’image de Claude soient à la pointe de la technologie, il existe certaines limitations à connaître :
- Identification des personnes : Claude ne peut pas être utilisé pour identifier (c’est-à-dire nommer) des personnes dans des images et refusera de le faire.
- Précision : Claude peut halluciner ou faire des erreurs lors de l’interprétation d’images de faible qualité, pivotées ou très petites (moins de 200 pixels).
- Raisonnement spatial : Les capacités de raisonnement spatial de Claude sont limitées. Il peut avoir du mal avec des tâches nécessitant une localisation précise ou des dispositions, comme la lecture d’un cadran d’horloge analogique ou la description des positions exactes des pièces d’échecs.
- Comptage : Claude peut donner des comptes approximatifs d’objets dans une image, mais peut ne pas toujours être précis, surtout avec un grand nombre de petits objets.
- Images générées par IA : Claude ne sait pas si une image est générée par IA et peut se tromper si on le lui demande. Ne comptez pas sur lui pour détecter des images fausses ou synthétiques.
- Contenu inapproprié : Claude ne traitera pas les images inappropriées ou explicites qui violent notre Politique d’utilisation acceptable.
- Applications de santé : Bien que Claude puisse analyser des images médicales générales, il n’est pas conçu pour interpréter des scans diagnostiques complexes tels que les CT ou les IRM. Les résultats de Claude ne doivent pas être considérés comme un substitut à un avis médical professionnel ou à un diagnostic.
Vérifiez toujours soigneusement les interprétations d’image de Claude, en particulier pour les cas d’utilisation à enjeux élevés. N’utilisez pas Claude pour des tâches nécessitant une précision parfaite ou une analyse d’image sensible sans supervision humaine.
FAQ
Approfondissez la vision
Prêt à commencer à construire avec des images en utilisant Claude ? Voici quelques ressources utiles :
- Livre de recettes multimodal : Ce livre de recettes contient des conseils sur la prise en main des images et les techniques de meilleures pratiques pour assurer les performances de la plus haute qualité avec les images. Découvrez comment vous pouvez efficacement inviter Claude avec des images pour effectuer des tâches telles que l’interprétation et l’analyse de graphiques ou l’extraction de contenu à partir de formulaires.
- Référence API : Visitez notre documentation pour l’API Messages, y compris des exemples d’appels API impliquant des images.
Si vous avez d’autres questions, n’hésitez pas à contacter notre équipe d’assistance. Vous pouvez également rejoindre notre communauté de développeurs pour vous connecter avec d’autres créateurs et obtenir de l’aide d’experts d’Anthropic.