Это руководство описывает, как работать с изображениями в Claude, включая лучшие практики, примеры кода и ограничения, которые следует учитывать.


Как использовать зрение

Используйте возможности зрения Claude через:

  • claude.ai. Загрузите изображение как файл или перетащите изображение прямо в окно чата.
  • Консоль Workbench. Если вы выберете модель, которая принимает изображения (только модели Claude 3 и 4), кнопка для добавления изображений появится в правом верхнем углу каждого блока сообщений пользователя.
  • API запрос. См. примеры в этом руководстве.

Перед загрузкой

Основы и ограничения

Вы можете включить несколько изображений в один запрос (до 20 для claude.ai и 100 для API-запросов). Claude проанализирует все предоставленные изображения при формулировании своего ответа. Это может быть полезно для сравнения или противопоставления изображений.

Если вы отправляете изображение размером более 8000x8000 пикселей, оно будет отклонено. Если вы отправляете более 20 изображений в одном API-запросе, это ограничение составляет 2000x2000 пикселей.

Оценка размера изображения

Для оптимальной производительности мы рекомендуем изменять размер изображений перед загрузкой, если они слишком большие. Если длинная сторона вашего изображения превышает 1568 пикселей, или ваше изображение превышает ~1,600 токенов, оно сначала будет уменьшено с сохранением соотношения сторон, пока не будет соответствовать ограничениям размера.

Если ваше входное изображение слишком большое и требует изменения размера, это увеличит задержку времени до первого токена, не давая вам никакой дополнительной производительности модели. Очень маленькие изображения размером менее 200 пикселей по любой из сторон могут ухудшить производительность.

Чтобы улучшить время до первого токена, мы рекомендуем изменять размер изображений до не более 1,15 мегапикселей (и в пределах 1568 пикселей по обоим измерениям).

Вот таблица максимальных размеров изображений, принимаемых нашим API, которые не будут изменены для распространенных соотношений сторон. С моделью Claude Sonnet 3.7 эти изображения используют примерно 1,600 токенов и около $4,80/1K изображений.

Соотношение сторонРазмер изображения
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

Расчет стоимости изображений

Каждое изображение, которое вы включаете в запрос к Claude, учитывается в использовании токенов. Чтобы рассчитать приблизительную стоимость, умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете.

Если ваше изображение не требует изменения размера, вы можете оценить количество используемых токенов с помощью этого алгоритма: токены = (ширина px * высота px)/750

Вот примеры приблизительной токенизации и стоимости для различных размеров изображений в рамках ограничений размера нашего API на основе цены за токен Claude Sonnet 3.7, составляющей $3 за миллион входных токенов:

Размер изображенияКол-во токеновСтоимость / изображениеСтоимость / 1K изображений
200x200 px(0,04 мегапикселя)~54~$0,00016~$0,16
1000x1000 px(1 мегапиксель)~1334~$0,004~$4,00
1092x1092 px(1,19 мегапикселя)~1590~$0,0048~$4,80

Обеспечение качества изображения

При предоставлении изображений Claude учитывайте следующее для достижения наилучших результатов:

  • Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
  • Четкость изображения: Убедитесь, что изображения четкие, не слишком размытые или пикселизированные.
  • Текст: Если изображение содержит важный текст, убедитесь, что он разборчив и не слишком мал. Избегайте обрезки ключевого визуального контекста только для увеличения текста.

Примеры промптов

Многие техники составления промптов, которые хорошо работают для текстовых взаимодействий с Claude, также могут быть применены к промптам на основе изображений.

Эти примеры демонстрируют структуры промптов, соответствующие лучшим практикам, с использованием изображений.

Так же, как и с размещением документов и запросов, Claude работает лучше, когда изображения идут перед текстом. Изображения, размещенные после текста или интерполированные с текстом, все равно будут работать хорошо, но если ваш случай использования позволяет, мы рекомендуем структуру изображение-затем-текст.

О примерах промптов

Следующие примеры демонстрируют, как использовать возможности зрения Claude с использованием различных языков программирования и подходов. Вы можете предоставить изображения Claude тремя способами:

  1. Как изображение в кодировке base64 в блоках содержимого image
  2. Как URL-ссылку на изображение, размещенное в интернете
  3. Используя Files API (загрузка один раз, использование несколько раз)

Примеры промптов с base64 используют следующие переменные:

    # Для изображений на основе URL вы можете использовать URL напрямую в вашем JSON-запросе
    
    # Для изображений в кодировке base64 вам нужно сначала закодировать изображение
    # Пример того, как закодировать изображение в base64 в bash:
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # Закодированные данные теперь можно использовать в ваших API-вызовах

Ниже приведены примеры того, как включать изображения в запрос Messages API с использованием изображений в кодировке base64 и URL-ссылок:

Пример изображения в кодировке base64

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Пример изображения на основе URL

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

Пример изображения с использованием Files API

Для изображений, которые вы будете использовать многократно, или когда вы хотите избежать накладных расходов на кодирование, используйте Files API:

# Сначала загрузите ваше изображение в Files API
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "file=@image.jpg"

# Затем используйте возвращенный file_id в вашем сообщении
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Describe this image."
          }
        ]
      }
    ]
  }'

См. примеры Messages API для получения дополнительного примера кода и деталей параметров.


Ограничения

Хотя возможности понимания изображений Claude являются передовыми, есть некоторые ограничения, о которых следует знать:

  • Идентификация людей: Claude не может использоваться для идентификации (т.е. называния имен) людей на изображениях и будет отказываться это делать.
  • Точность: Claude может галлюцинировать или делать ошибки при интерпретации изображений низкого качества, повернутых или очень маленьких изображений размером менее 200 пикселей.
  • Пространственное мышление: Способности Claude к пространственному мышлению ограничены. Он может испытывать трудности с задачами, требующими точной локализации или компоновки, например, чтение циферблата аналоговых часов или описание точных позиций шахматных фигур.
  • Подсчет: Claude может давать приблизительное количество объектов на изображении, но не всегда может быть точным, особенно с большим количеством мелких объектов.
  • Изображения, сгенерированные ИИ: Claude не знает, сгенерировано ли изображение ИИ, и может ошибаться, если его спросить об этом. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
  • Неприемлемый контент: Claude не будет обрабатывать неприемлемые или явные изображения, нарушающие нашу Политику приемлемого использования.
  • Медицинские приложения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканирований, таких как КТ или МРТ. Результаты Claude не следует рассматривать как замену профессиональной медицинской консультации или диагностики.

Всегда тщательно проверяйте и подтверждайте интерпретации изображений Claude, особенно для важных случаев использования. Не используйте Claude для задач, требующих идеальной точности или чувствительного анализа изображений без человеческого надзора.


FAQ


Глубже погрузитесь в зрение

Готовы начать создавать с использованием изображений с помощью Claude? Вот несколько полезных ресурсов:

Если у вас есть другие вопросы, не стесняйтесь обращаться к нашей команде поддержки. Вы также можете присоединиться к нашему сообществу разработчиков, чтобы связаться с другими создателями и получить помощь от экспертов Anthropic.