Esta guía describe cómo trabajar con imágenes en Claude, incluyendo las mejores prácticas, ejemplos de código y limitaciones a tener en cuenta.


Cómo usar la visión

Utiliza las capacidades de visión de Claude a través de:

  • claude.ai. Sube una imagen como lo harías con un archivo, o arrastra y suelta una imagen directamente en la ventana de chat.
  • Console Workbench. Si seleccionas un modelo que acepta imágenes (solo modelos Claude 3), aparecerá un botón para agregar imágenes en la parte superior derecha de cada bloque de mensaje de Usuario.
  • Solicitud de API. Consulta los ejemplos en esta guía.

Antes de subir

Evalúa el tamaño de la imagen

Puedes incluir múltiples imágenes en una sola solicitud (hasta 5 para claude.ai y 20 para solicitudes de API). Claude analizará todas las imágenes proporcionadas al formular su respuesta. Esto puede ser útil para comparar o contrastar imágenes.

Para un rendimiento óptimo, recomendamos redimensionar las imágenes antes de subirlas si exceden los límites de tamaño o tokens. Si el borde largo de tu imagen tiene más de 1568 píxeles, o tu imagen tiene más de ~1,600 tokens, primero se reducirá, conservando la relación de aspecto, hasta que esté dentro de los límites de tamaño.

Si tu imagen de entrada es demasiado grande y necesita ser redimensionada, aumentará la latencia de time-to-first-token, sin darte ningún rendimiento adicional del modelo. Las imágenes muy pequeñas, de menos de 200 píxeles en cualquier borde, pueden degradar el rendimiento.

Para mejorar time-to-first-token, recomendamos redimensionar las imágenes a no más de 1.15 megapíxeles (y dentro de 1568 píxeles en ambas dimensiones).

Aquí hay una tabla de tamaños máximos de imagen aceptados por nuestra API que no serán redimensionados para relaciones de aspecto comunes. Con el modelo Claude 3.5 Sonnet, estas imágenes usan aproximadamente 1,600 tokens y alrededor de $4.80/1K imagen.

Relación de aspectoTamaño de imagen
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Calcula los costos de las imágenes

Cada imagen que incluyas en una solicitud a Claude cuenta para tu uso de tokens. Para calcular el costo aproximado, multiplica el número aproximado de tokens de imagen por el precio por token del modelo que estás utilizando.

Si tu imagen no necesita ser redimensionada, puedes estimar el número de tokens utilizados a través de este algoritmo: tokens = (ancho px * alto px)/750

Aquí hay ejemplos de tokenización aproximada y costos para diferentes tamaños de imagen dentro de las restricciones de tamaño de nuestra API basados en el precio por token de Claude 3.5 Sonnet de $3 por millón de tokens de entrada:

Tamaño de imagen# de TokensCosto / imagenCosto / 1K imágenes
200x200 px(0.04 megapíxeles)~54~$0.00016~$0.16
1000x1000 px(1 megapíxel)~1334~$0.004~$4.00
1092x1092 px(1.19 megapíxeles)~1590~$0.0048~$4.80

Asegurando la calidad de la imagen

Al proporcionar imágenes a Claude, ten en cuenta lo siguiente para obtener los mejores resultados:

  • Formato de imagen: Utiliza un formato de imagen compatible: JPEG, PNG, GIF o WebP.
  • Claridad de imagen: Asegúrate de que las imágenes sean claras y no demasiado borrosas o pixeladas.
  • Texto: Si la imagen contiene texto importante, asegúrate de que sea legible y no demasiado pequeño. Evita recortar el contexto visual clave solo para agrandar el texto.

Ejemplos de prompts

Muchas de las técnicas de prompting que funcionan bien para las interacciones basadas en texto con Claude también se pueden aplicar a los prompts basados en imágenes.

Estos ejemplos demuestran las estructuras de prompt de mejores prácticas que involucran imágenes.

Al igual que con la ubicación de consulta de documentos, Claude funciona mejor cuando las imágenes vienen antes del texto. Las imágenes colocadas después del texto o interpoladas con texto aún funcionarán bien, pero si tu caso de uso lo permite, recomendamos una estructura de imagen y luego texto.

Acerca de los ejemplos de prompts

Estos ejemplos de prompts utilizan el SDK de Python de Anthropic y obtienen imágenes de Wikipedia utilizando la biblioteca httpx. Puedes utilizar cualquier fuente de imágenes.

Los ejemplos de prompts utilizan estas variables.

Python
import base64
import httpx

image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.b64encode(httpx.get(image2_url).content).decode("utf-8")

Para utilizar imágenes al realizar una solicitud de API, puedes proporcionar imágenes a Claude como una imagen codificada en base64 en bloques de contenido image. Aquí hay un ejemplo simple en Python que muestra cómo incluir una imagen codificada en base64 en una solicitud de la API de Messages:

Python
import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-3-5-sonnet-20240620",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Describe esta imagen."
                }
            ],
        }
    ],
)
print(message)

Consulta ejemplos de la API de Messages para obtener más ejemplos de código y detalles de parámetros.


Limitaciones

Si bien las capacidades de comprensión de imágenes de Claude son de vanguardia, hay algunas limitaciones a tener en cuenta:

  • Identificación de personas: Claude no se puede usar para identificar (es decir, nombrar) personas en imágenes y se negará a hacerlo.
  • Precisión: Claude puede alucinar o cometer errores al interpretar imágenes de baja calidad, rotadas o muy pequeñas de menos de 200 píxeles.
  • Razonamiento espacial: Las habilidades de razonamiento espacial de Claude son limitadas. Puede tener dificultades con tareas que requieren una localización o diseños precisos, como leer la esfera de un reloj analógico o describir las posiciones exactas de las piezas de ajedrez.
  • Conteo: Claude puede dar recuentos aproximados de objetos en una imagen, pero puede no ser siempre precisamente exacto, especialmente con grandes cantidades de objetos pequeños.
  • Imágenes generadas por IA: Claude no sabe si una imagen es generada por IA y puede estar equivocado si se le pregunta. No confíes en él para detectar imágenes falsas o sintéticas.
  • Contenido inapropiado: Claude no procesará imágenes inapropiadas o explícitas que violen nuestra Política de Uso Aceptable.
  • Aplicaciones de atención médica: Si bien Claude puede analizar imágenes médicas generales, no está diseñado para interpretar escaneos de diagnóstico complejos como tomografías computarizadas o resonancias magnéticas. Las salidas de Claude no deben considerarse un sustituto del asesoramiento o diagnóstico médico profesional.

Siempre revisa y verifica cuidadosamente las interpretaciones de imágenes de Claude, especialmente para casos de uso de alto riesgo. No uses Claude para tareas que requieran una precisión perfecta o un análisis de imágenes sensible sin supervisión humana.


Preguntas frecuentes


Profundiza en la visión

¿Listo para comenzar a construir con imágenes usando Claude? Aquí hay algunos recursos útiles:

Si tienes alguna otra pregunta, no dudes en comunicarte con nuestro equipo de soporte. También puedes unirte a nuestra comunidad de desarrolladores para conectarte con otros creadores y obtener ayuda de expertos de Anthropic.