Este guia descreve como trabalhar com imagens no Claude, incluindo melhores práticas, exemplos de código e limitações a serem consideradas.


Como usar a visão

Use os recursos de visão do Claude via:

  • claude.ai. Faça upload de uma imagem como faria com um arquivo, ou arraste e solte uma imagem diretamente na janela de chat.
  • O Console Workbench. Se você selecionar um modelo que aceita imagens (apenas modelos Claude 3 e 4), um botão para adicionar imagens aparece no canto superior direito de cada bloco de mensagem do Usuário.
  • Requisição de API. Veja os exemplos neste guia.

Antes de fazer upload

Noções básicas e limites

Você pode incluir várias imagens em uma única requisição (até 20 para claude.ai e 100 para requisições de API). O Claude analisará todas as imagens fornecidas ao formular sua resposta. Isso pode ser útil para comparar ou contrastar imagens.

Se você enviar uma imagem maior que 8000x8000 px, ela será rejeitada. Se você enviar mais de 20 imagens em uma requisição de API, este limite é de 2000x2000 px.

Avalie o tamanho da imagem

Para um desempenho ideal, recomendamos redimensionar imagens antes do upload se forem muito grandes. Se a borda longa da sua imagem tiver mais de 1568 pixels, ou se sua imagem tiver mais de ~1.600 tokens, ela será primeiro redimensionada, preservando a proporção, até estar dentro dos limites de tamanho.

Se sua imagem de entrada for muito grande e precisar ser redimensionada, isso aumentará a latência do tempo até o primeiro token, sem lhe dar qualquer desempenho adicional do modelo. Imagens muito pequenas com menos de 200 pixels em qualquer borda podem degradar o desempenho.

Para melhorar o tempo até o primeiro token, recomendamos redimensionar imagens para não mais que 1,15 megapixels (e dentro de 1568 pixels em ambas as dimensões).

Aqui está uma tabela de tamanhos máximos de imagem aceitos por nossa API que não serão redimensionados para proporções comuns. Com o modelo Claude Sonnet 3.7, essas imagens usam aproximadamente 1.600 tokens e cerca de $4,80/1K imagens.

ProporçãoTamanho da imagem
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Calcule os custos de imagem

Cada imagem que você inclui em uma requisição ao Claude conta para o seu uso de tokens. Para calcular o custo aproximado, multiplique o número aproximado de tokens de imagem pelo preço por token do modelo que você está usando.

Se sua imagem não precisar ser redimensionada, você pode estimar o número de tokens usados através deste algoritmo: tokens = (largura px * altura px)/750

Aqui estão exemplos de tokenização aproximada e custos para diferentes tamanhos de imagem dentro das restrições de tamanho da nossa API com base no preço por token do Claude Sonnet 3.7 de $3 por milhão de tokens de entrada:

Tamanho da imagem# de TokensCusto / imagemCusto / 1K imagens
200x200 px(0,04 megapixels)~54~$0,00016~$0,16
1000x1000 px(1 megapixel)~1334~$0,004~$4,00
1092x1092 px(1,19 megapixels)~1590~$0,0048~$4,80

Garantindo a qualidade da imagem

Ao fornecer imagens ao Claude, tenha em mente o seguinte para obter melhores resultados:

  • Formato da imagem: Use um formato de imagem suportado: JPEG, PNG, GIF ou WebP.
  • Clareza da imagem: Certifique-se de que as imagens estejam claras e não muito borradas ou pixeladas.
  • Texto: Se a imagem contiver texto importante, certifique-se de que seja legível e não muito pequeno. Evite cortar contexto visual importante apenas para ampliar o texto.

Exemplos de prompts

Muitas das técnicas de prompt que funcionam bem para interações baseadas em texto com o Claude também podem ser aplicadas a prompts baseados em imagens.

Estes exemplos demonstram estruturas de prompt de melhores práticas envolvendo imagens.

Assim como com a colocação de consulta de documentos, o Claude funciona melhor quando as imagens vêm antes do texto. Imagens colocadas após o texto ou interpoladas com texto ainda terão bom desempenho, mas se seu caso de uso permitir, recomendamos uma estrutura de imagem-depois-texto.

Sobre os exemplos de prompt

Os exemplos a seguir demonstram como usar os recursos de visão do Claude usando várias linguagens de programação e abordagens. Você pode fornecer imagens ao Claude de três maneiras:

  1. Como uma imagem codificada em base64 em blocos de conteúdo image
  2. Como uma referência de URL para uma imagem hospedada online
  3. Usando a API de Arquivos (upload uma vez, use várias vezes)

Os exemplos de prompt base64 usam estas variáveis:

    # Para imagens baseadas em URL, você pode usar o URL diretamente em sua requisição JSON
    
    # Para imagens codificadas em base64, você precisa primeiro codificar a imagem
    # Exemplo de como codificar uma imagem para base64 em bash:
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # Os dados codificados agora podem ser usados em suas chamadas de API

Abaixo estão exemplos de como incluir imagens em uma requisição da API Messages usando imagens codificadas em base64 e referências de URL:

Exemplo de imagem codificada em base64

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Exemplo de imagem baseada em URL

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Exemplo de imagem da API de Arquivos

Para imagens que você usará repetidamente ou quando quiser evitar sobrecarga de codificação, use a API de Arquivos:

# Primeiro, faça upload da sua imagem para a API de Arquivos
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "file=@image.jpg"

# Depois use o file_id retornado em sua mensagem
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Veja exemplos da API Messages para mais exemplos de código e detalhes de parâmetros.


Limitações

Embora as capacidades de compreensão de imagem do Claude sejam de ponta, existem algumas limitações a serem consideradas:

  • Identificação de pessoas: O Claude não pode ser usado para identificar (ou seja, nomear) pessoas em imagens e se recusará a fazê-lo.
  • Precisão: O Claude pode alucinar ou cometer erros ao interpretar imagens de baixa qualidade, rotacionadas ou muito pequenas com menos de 200 pixels.
  • Raciocínio espacial: As habilidades de raciocínio espacial do Claude são limitadas. Ele pode ter dificuldades com tarefas que exigem localização precisa ou layouts, como ler um mostrador de relógio analógico ou descrever posições exatas de peças de xadrez.
  • Contagem: O Claude pode fornecer contagens aproximadas de objetos em uma imagem, mas pode nem sempre ser precisamente exato, especialmente com grandes números de objetos pequenos.
  • Imagens geradas por IA: O Claude não sabe se uma imagem é gerada por IA e pode estar incorreto se questionado. Não confie nele para detectar imagens falsas ou sintéticas.
  • Conteúdo inadequado: O Claude não processará imagens inadequadas ou explícitas que violem nossa Política de Uso Aceitável.
  • Aplicações de saúde: Embora o Claude possa analisar imagens médicas gerais, ele não foi projetado para interpretar exames diagnósticos complexos como TCs ou RMIs. As saídas do Claude não devem ser consideradas um substituto para aconselhamento médico profissional ou diagnóstico.

Sempre revise e verifique cuidadosamente as interpretações de imagem do Claude, especialmente para casos de uso de alto risco. Não use o Claude para tarefas que exigem precisão perfeita ou análise de imagem sensível sem supervisão humana.


FAQ


Aprofunde-se na visão

Pronto para começar a construir com imagens usando o Claude? Aqui estão alguns recursos úteis:

Se você tiver outras dúvidas, sinta-se à vontade para entrar em contato com nossa equipe de suporte. Você também pode participar da nossa comunidade de desenvolvedores para se conectar com outros criadores e obter ajuda de especialistas da Anthropic.