Зрение

Это руководство описывает, как работать с изображениями в Claude, включая лучшие практики, примеры кода и ограничения, которые следует учитывать.

Как использовать зрение

Используйте возможности зрения Claude через:

claude.ai. Загрузите изображение как файл или перетащите изображение прямо в окно чата.
Console Workbench. Если вы выберете модель, которая принимает изображения (только модели Claude 3 и 4), кнопка для добавления изображений появится в правом верхнем углу каждого блока сообщения пользователя.
API запрос. См. примеры в этом руководстве.

Перед загрузкой

Основы и ограничения

Вы можете включить несколько изображений в один запрос (до 20 для claude.ai и 100 для API запросов). Claude проанализирует все предоставленные изображения при формулировании своего ответа. Это может быть полезно для сравнения или сопоставления изображений. Если вы отправите изображение размером больше 8000x8000 пикселей, оно будет отклонено. Если вы отправите более 20 изображений в одном API запросе, этот лимит составляет 2000x2000 пикселей.

Хотя API поддерживает 100 изображений на запрос, существует ограничение размера запроса в 32МБ для стандартных конечных точек.

Оценка размера изображения

Для оптимальной производительности мы рекомендуем изменить размер изображений перед загрузкой, если они слишком большие. Если длинная сторона вашего изображения превышает 1568 пикселей, или ваше изображение содержит более ~1,600 токенов, оно сначала будет уменьшено с сохранением соотношения сторон, пока не окажется в пределах размерных ограничений. Если ваше входное изображение слишком большое и требует изменения размера, это увеличит задержку времени до первого токена, не давая вам никакой дополнительной производительности модели. Очень маленькие изображения размером менее 200 пикселей по любой стороне могут ухудшить производительность.

Для улучшения времени до первого токена, мы рекомендуем изменять размер изображений до не более 1.15 мегапикселей (и в пределах 1568 пикселей в обеих измерениях).

Вот таблица максимальных размеров изображений, принимаемых нашим API, которые не будут изменены для обычных соотношений сторон. С моделью Claude Sonnet 3.7 эти изображения используют приблизительно 1,600 токенов и около $4.80/1K изображений.

Соотношение сторон	Размер изображения
1:1	1092x1092 пикс
3:4	951x1268 пикс
2:3	896x1344 пикс
9:16	819x1456 пикс
1:2	784x1568 пикс

Расчет стоимости изображений

Каждое изображение, которое вы включаете в запрос к Claude, засчитывается в ваше использование токенов. Для расчета приблизительной стоимости умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете. Если ваше изображение не требует изменения размера, вы можете оценить количество используемых токенов через этот алгоритм: токены = (ширина пикс * высота пикс)/750 Вот примеры приблизительной токенизации и стоимости для различных размеров изображений в пределах ограничений размера нашего API, основанные на цене Claude Sonnet 3.7 в $3 за миллион входных токенов:

Размер изображения	Количество токенов	Стоимость / изображение	Стоимость / 1K изображений
200x200 пикс(0.04 мегапикселя)	~54	~$0.00016	~$0.16
1000x1000 пикс(1 мегапиксель)	~1334	~$0.004	~$4.00
1092x1092 пикс(1.19 мегапикселя)	~1590	~$0.0048	~$4.80

Обеспечение качества изображения

При предоставлении изображений Claude учитывайте следующее для лучших результатов:

Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
Четкость изображения: Убедитесь, что изображения четкие и не слишком размытые или пикселизированные.
Текст: Если изображение содержит важный текст, убедитесь, что он читаемый и не слишком мелкий. Избегайте обрезки ключевого визуального контекста только для увеличения текста.

Примеры промптов

Многие из техник промптинга, которые хорошо работают для текстовых взаимодействий с Claude, также могут быть применены к промптам на основе изображений. Эти примеры демонстрируют структуры промптов лучших практик с участием изображений.

Так же, как и с размещением документ-запрос, Claude работает лучше всего, когда изображения идут перед текстом. Изображения, размещенные после текста или интерполированные с текстом, все еще будут работать хорошо, но если ваш случай использования позволяет это, мы рекомендуем структуру изображение-затем-текст.

О примерах промптов

Следующие примеры демонстрируют, как использовать возможности зрения Claude, используя различные языки программирования и подходы. Вы можете предоставить изображения Claude тремя способами:

Как изображение, закодированное в base64, в блоках содержимого image
Как URL-ссылку на изображение, размещенное онлайн
Используя Files API (загрузить один раз, использовать несколько раз)

Примеры промптов base64 используют эти переменные:

    # Для изображений на основе URL, вы можете использовать URL напрямую в вашем JSON запросе
    
    # Для изображений, закодированных в base64, вам нужно сначала закодировать изображение
    # Пример того, как закодировать изображение в base64 в bash:
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # Закодированные данные теперь могут быть использованы в ваших API вызовах

Ниже приведены примеры того, как включить изображения в запрос Messages API, используя изображения, закодированные в base64, и URL-ссылки:

Пример изображения, закодированного в base64

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Опишите это изображение."
          }
        ]
      }
    ]
  }'

Пример изображения на основе URL

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Опишите это изображение."
          }
        ]
      }
    ]
  }'

Пример изображения Files API

Для изображений, которые вы будете использовать повторно, или когда вы хотите избежать накладных расходов на кодирование, используйте Files API:

# Сначала загрузите ваше изображение в Files API
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "file=@image.jpg"

# Затем используйте возвращенный file_id в вашем сообщении
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Опишите это изображение."
          }
        ]
      }
    ]
  }'

См. примеры Messages API для дополнительного примера кода и деталей параметров.

Пример: Одно изображение

Лучше всего размещать изображения раньше в промпте, чем вопросы о них или инструкции для задач, которые их используют.Попросите Claude описать одно изображение.

Роль	Содержание
Пользователь	[Изображение] Опишите это изображение.

Вот соответствующий API вызов, использующий модель Claude Sonnet 3.7.

Python

message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Опишите это изображение."
                }
            ],
        }
    ],
)

Пример: Несколько изображений

В ситуациях, где есть несколько изображений, представьте каждое изображение с Изображение 1: и Изображение 2: и так далее. Вам не нужны новые строки между изображениями или между изображениями и промптом.Попросите Claude описать различия между несколькими изображениями.

Роль	Содержание
Пользователь	Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения?

Вот соответствующий API вызов, использующий модель Claude Sonnet 3.7.

Python

message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Изображение 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Изображение 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image2_media_type,
                        "data": image2_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Чем отличаются эти изображения?"
                }
            ],
        }
    ],
)

Пример: Несколько изображений с системным промптом

Попросите Claude описать различия между несколькими изображениями, давая ему системный промпт о том, как отвечать.

Содержание
Система	Отвечайте только на испанском языке.
Пользователь	Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения?

Вот соответствующий API вызов, использующий модель Claude Sonnet 3.7.

Python

message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    system="Отвечайте только на испанском языке.",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Изображение 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Изображение 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image2_media_type,
                        "data": image2_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Чем отличаются эти изображения?"
                }
            ],
        }
    ],
)

Пример: Четыре изображения в двух поворотах разговора

Возможности зрения Claude блестят в мультимодальных разговорах, которые смешивают изображения и текст. Вы можете иметь расширенные обмены туда-сюда с Claude, добавляя новые изображения или дополнительные вопросы в любой момент. Это обеспечивает мощные рабочие процессы для итеративного анализа изображений, сравнения или объединения визуальных элементов с другими знаниями.Попросите Claude сопоставить два изображения, затем задайте дополнительный вопрос, сравнивая первые изображения с двумя новыми изображениями.

Роль	Содержание
Пользователь	Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения?
Ассистент	[Ответ Claude]
Пользователь	Изображение 1: [Изображение 3] Изображение 2: [Изображение 4] Похожи ли эти изображения на первые два?
Ассистент	[Ответ Claude]

При использовании API просто вставьте новые изображения в массив Messages в роли user как часть любой стандартной структуры многооборотного разговора.

Ограничения

Хотя возможности понимания изображений Claude являются передовыми, есть некоторые ограничения, которые следует учитывать:

Идентификация людей: Claude не может быть использован для идентификации (т.е. именования) людей на изображениях и откажется это делать.
Точность: Claude может галлюцинировать или делать ошибки при интерпретации низкокачественных, повернутых или очень маленьких изображений размером менее 200 пикселей.
Пространственное рассуждение: Способности пространственного рассуждения Claude ограничены. Он может испытывать трудности с задачами, требующими точной локализации или макетов, такими как чтение аналогового циферблата часов или описание точных позиций шахматных фигур.
Подсчет: Claude может дать приблизительные подсчеты объектов на изображении, но может не всегда быть точно точным, особенно с большим количеством мелких объектов.
Изображения, созданные ИИ: Claude не знает, создано ли изображение ИИ, и может быть неправильным, если его спросят. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
Неподходящий контент: Claude не будет обрабатывать неподходящие или откровенные изображения, которые нарушают нашу Политику допустимого использования.
Приложения здравоохранения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканов, таких как КТ или МРТ. Выходные данные Claude не должны рассматриваться как замена профессиональной медицинской консультации или диагностики.

Всегда тщательно проверяйте и верифицируйте интерпретации изображений Claude, особенно для случаев использования с высокими ставками. Не используйте Claude для задач, требующих идеальной точности или чувствительного анализа изображений без человеческого надзора.

FAQ

Какие типы файлов изображений поддерживает Claude?

Может ли Claude читать URL изображений?

Да, Claude теперь может обрабатывать изображения из URL с нашими блоками источников изображений URL в API. Просто используйте тип источника “url” вместо “base64” в ваших API запросах. Пример:

{
  "type": "image",
  "source": {
    "type": "url",
    "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
  }
}

Есть ли ограничение на размер файла изображения, который я могу загрузить?

Сколько изображений я могу включить в один запрос?

Читает ли Claude метаданные изображений?

Могу ли я удалить изображения, которые я загрузил?

Где я могу найти подробности о конфиденциальности данных для загрузок изображений?

Что если интерпретация изображения Claude кажется неправильной?

Может ли Claude генерировать или редактировать изображения?

Углубитесь в зрение

Готовы начать строить с изображениями, используя Claude? Вот несколько полезных ресурсов:

Мультимодальная поваренная книга: Эта поваренная книга содержит советы по началу работы с изображениями и техники лучших практик для обеспечения высочайшего качества производительности с изображениями. Посмотрите, как вы можете эффективно промптить Claude с изображениями для выполнения таких задач, как интерпретация и анализ диаграмм или извлечение содержимого из форм.
Справочник API: Посетите нашу документацию для Messages API, включая примеры API вызовов с участием изображений.

Если у вас есть другие вопросы, не стесняйтесь обращаться к нашей команде поддержки. Вы также можете присоединиться к нашему сообществу разработчиков, чтобы связаться с друг ими создателями и получить помощь от экспертов Anthropic.

Первые шаги

Модели и цены

Узнать о Claude

Возможности

Инструменты

Протокол контекста модели (MCP)

Варианты использования

Инженерия промптов

Тестирование и оценка

Усилить защитные меры

Юридический центр

Как использовать зрение

Перед загрузкой

Основы и ограничения

Оценка размера изображения

Расчет стоимости изображений

Обеспечение качества изображения

Примеры промптов

О примерах промптов

Пример изображения, закодированного в base64

Пример изображения на основе URL

Пример изображения Files API

Ограничения

FAQ

Углубитесь в зрение

Первые шаги

Модели и цены

Узнать о Claude

Возможности

Инструменты

Протокол контекста модели (MCP)

Варианты использования

Инженерия промптов

Тестирование и оценка

Усилить защитные меры

Юридический центр

​Как использовать зрение

​Перед загрузкой

​Основы и ограничения

​Оценка размера изображения

​Расчет стоимости изображений

​Обеспечение качества изображения

​Примеры промптов

​О примерах промптов

​Пример изображения, закодированного в base64

​Пример изображения на основе URL

​Пример изображения Files API

​Ограничения

​FAQ

​Углубитесь в зрение

Как использовать зрение

Перед загрузкой

Основы и ограничения

Оценка размера изображения

Расчет стоимости изображений

Обеспечение качества изображения

Примеры промптов

О примерах промптов

Пример изображения, закодированного в base64

Пример изображения на основе URL

Пример изображения Files API

Ограничения

FAQ

Углубитесь в зрение