Ce guide décrit comment travailler avec des images dans Claude, y compris les meilleures pratiques, des exemples de code et les limitations à garder à l’esprit.


Comment utiliser la vision

Utilisez les capacités de vision de Claude via :

  • claude.ai. Téléchargez une image comme vous le feriez pour un fichier, ou faites glisser et déposez une image directement dans la fenêtre de chat.
  • Le Console Workbench. Si vous sélectionnez un modèle qui accepte les images (modèles Claude 3 uniquement), un bouton pour ajouter des images apparaît en haut à droite de chaque bloc de message utilisateur.
  • Requête API. Voir les exemples dans ce guide.

Avant de télécharger

Évaluer la taille de l’image

Vous pouvez inclure plusieurs images dans une seule requête (jusqu’à 5 pour claude.ai et 20 pour les requêtes API). Claude analysera toutes les images fournies lors de la formulation de sa réponse. Cela peut être utile pour comparer ou contraster des images.

Pour des performances optimales, nous recommandons de redimensionner les images avant de les télécharger si elles dépassent les limites de taille ou de tokens. Si le bord long de votre image dépasse 1568 pixels, ou si votre image fait plus d’environ 1 600 tokens, elle sera d’abord réduite, en préservant le ratio d’aspect, jusqu’à ce qu’elle soit dans les limites de taille.

Si votre image d’entrée est trop grande et doit être redimensionnée, cela augmentera la latence du temps jusqu’au premier token, sans vous donner de performances supplémentaires du modèle. Les très petites images de moins de 200 pixels sur n’importe quel bord peuvent dégrader les performances.

Pour améliorer le temps jusqu’au premier token, nous recommandons de redimensionner les images à pas plus de 1,15 mégapixels (et dans les 1568 pixels dans les deux dimensions).

Voici un tableau des tailles d’image maximales acceptées par notre API qui ne seront pas redimensionnées pour les ratios d’aspect courants. Avec le modèle Claude 3.5 Sonnet, ces images utilisent environ 1 600 tokens et environ 4,80 $/1K image.

Ratio d’aspectTaille de l’image
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Calculer les coûts des images

Chaque image que vous incluez dans une requête à Claude compte dans votre utilisation de tokens. Pour calculer le coût approximatif, multipliez le nombre approximatif de tokens d’image par le prix par token du modèle que vous utilisez.

Si votre image n’a pas besoin d’être redimensionnée, vous pouvez estimer le nombre de tokens utilisés grâce à cet algorithme : tokens = (largeur px * hauteur px)/750

Voici des exemples de tokenisation et de coûts approximatifs pour différentes tailles d’image dans les limites de taille de notre API, basés sur le prix par token de Claude 3.5 Sonnet de 3 $ par million de tokens d’entrée :

Taille de l’imageNombre de tokensCoût / imageCoût / 1K images
200x200 px (0,04 mégapixels)~54~0,00016 $~0,16 $
1000x1000 px (1 mégapixel)~1334~0,004 $~4,00 $
1092x1092 px (1,19 mégapixels)~1590~0,0048 $~4,80 $

Assurer la qualité de l’image

Lorsque vous fournissez des images à Claude, gardez à l’esprit les points suivants pour obtenir les meilleurs résultats :

  • Format d’image : Utilisez un format d’image pris en charge : JPEG, PNG, GIF ou WebP.
  • Clarté de l’image : Assurez-vous que les images sont claires et pas trop floues ou pixelisées.
  • Texte : Si l’image contient du texte important, assurez-vous qu’il est lisible et pas trop petit. Évitez de recadrer le contexte visuel clé juste pour agrandir le texte.

Exemples d’invites

Bon nombre des techniques d’invite qui fonctionnent bien pour les interactions textuelles avec Claude peuvent également être appliquées aux invites basées sur des images.

Ces exemples démontrent les structures d’invite des meilleures pratiques impliquant des images.

Tout comme avec le placement des requêtes de document, Claude fonctionne mieux lorsque les images viennent avant le texte. Les images placées après le texte ou interpolées avec le texte fonctionneront toujours bien, mais si votre cas d’utilisation le permet, nous recommandons une structure image-puis-texte.

À propos des exemples d’invite

Ces exemples d’invite utilisent le SDK Python Anthropic et récupèrent des images de Wikipédia en utilisant la bibliothèque httpx. Vous pouvez utiliser n’importe quelle source d’image.

Les exemples d’invite utilisent ces variables.

Python
import base64
import httpx

image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.b64encode(httpx.get(image2_url).content).decode("utf-8")

Pour utiliser des images lors d’une requête API, vous pouvez fournir des images à Claude sous forme d’image encodée en base64 dans des blocs de contenu image. Voici un exemple simple en Python montrant comment inclure une image encodée en base64 dans une requête de l’API Messages :

Python
import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-3-5-sonnet-20240620",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Décrivez cette image."
                }
            ],
        }
    ],
)
print(message)

Voir les exemples de l’API Messages pour plus d’exemples de code et de détails sur les paramètres.


Limitations

Bien que les capacités de compréhension d’image de Claude soient à la pointe de la technologie, il y a certaines limitations dont il faut être conscient :

  • Identification des personnes : Claude ne peut pas être utilisé pour identifier (c’est-à-dire nommer) des personnes sur des images et refusera de le faire.
  • Précision : Claude peut halluciner ou faire des erreurs lors de l’interprétation d’images de faible qualité, pivotées ou très petites de moins de 200 pixels.
  • Raisonnement spatial : Les capacités de raisonnement spatial de Claude sont limitées. Il peut avoir du mal avec des tâches nécessitant une localisation ou des dispositions précises, comme la lecture d’un cadran d’horloge analogique ou la description des positions exactes des pièces d’échecs.
  • Comptage : Claude peut donner des comptes approximatifs d’objets dans une image mais peut ne pas toujours être précisément exact, en particulier avec un grand nombre de petits objets.
  • Images générées par l’IA : Claude ne sait pas si une image est générée par l’IA et peut se tromper si on le lui demande. Ne vous fiez pas à lui pour détecter les images fausses ou synthétiques.
  • Contenu inapproprié : Claude ne traitera pas les images inappropriées ou explicites qui violent notre politique d’utilisation acceptable.
  • Applications de santé : Bien que Claude puisse analyser des images médicales générales, il n’est pas conçu pour interpréter des scans diagnostiques complexes tels que des scanners ou des IRM. Les sorties de Claude ne doivent pas être considérées comme un substitut à un avis médical professionnel ou à un diagnostic.

Examinez et vérifiez toujours soigneusement les interprétations d’images de Claude, en particulier pour les cas d’utilisation à enjeux élevés. N’utilisez pas Claude pour des tâches nécessitant une précision parfaite ou une analyse d’image sensible sans surveillance humaine.


FAQ


Plongez plus profondément dans la vision

Prêt à commencer à construire avec des images en utilisant Claude ? Voici quelques ressources utiles :

Si vous avez d’autres questions, n’hésitez pas à contacter notre équipe d’assistance. Vous pouvez également rejoindre notre communauté de développeurs pour vous connecter avec d’autres créateurs et obtenir de l’aide d’experts d’Anthropic.