Зрение
Семейства моделей Claude 3 и 4 поставляются с новыми возможностями зрения, которые позволяют Claude понимать и анализировать изображения, открывая захватывающие возможности для мультимодального взаимодействия.
Это руководство описывает, как работать с изображениями в Claude, включая лучшие практики, примеры кода и ограничения, которые следует учитывать.
Как использовать зрение
Используйте возможности зрения Claude через:
- claude.ai. Загрузите изображение как файл или перетащите изображение прямо в окно чата.
- Console Workbench. Если вы выберете модель, которая принимает изображения (только модели Claude 3 и 4), кнопка для добавления изображений появится в правом верхнем углу каждого блока сообщения пользователя.
- API запрос. См. примеры в этом руководстве.
Перед загрузкой
Основы и ограничения
Вы можете включить несколько изображений в один запрос (до 20 для claude.ai и 100 для API запросов). Claude проанализирует все предоставленные изображения при формулировании своего ответа. Это может быть полезно для сравнения или сопоставления изображений.
Если вы отправите изображение размером больше 8000x8000 пикселей, оно будет отклонено. Если вы отправите более 20 изображений в одном API запросе, этот лимит составляет 2000x2000 пикселей.
Оценка размера изображения
Для оптимальной производительности мы рекомендуем изменить размер изображений перед загрузкой, если они слишком большие. Если длинная сторона вашего изображения превышает 1568 пикселей, или ваше изображение содержит более ~1,600 токенов, оно сначала будет уменьшено с сохранением соотношения сторон, пока не окажется в пределах размерных ограничений.
Если ваше входное изображение слишком большое и требует изменения размера, это увеличит задержку времени до первого токена, не давая вам никакой дополнительной производительности модели. Очень маленькие изображения размером менее 200 пикселей по любой стороне могут ухудшить производительность.
Для улучшения времени до первого токена, мы рекомендуем изменять размер изображений до не более 1.15 мегапикселей (и в пределах 1568 пикселей в обеих измерениях).
Вот таблица максимальных размеров изображений, принимаемых нашим API, которые не будут изменены для обычных соотношений сторон. С моделью Claude Sonnet 3.7 эти изображения используют приблизительно 1,600 токенов и около $4.80/1K изображений.
Соотношение сторон | Размер изображения |
---|---|
1:1 | 1092x1092 пикс |
3:4 | 951x1268 пикс |
2:3 | 896x1344 пикс |
9:16 | 819x1456 пикс |
1:2 | 784x1568 пикс |
Расчет стоимости изображений
Каждое изображение, которое вы включаете в запрос к Claude, засчитывается в ваше использование токенов. Для расчета приблизительной стоимости умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете.
Если ваше изображение не требует изменения размера, вы можете оценить количество используемых токенов через этот алгоритм: токены = (ширина пикс * высота пикс)/750
Вот примеры приблизительной токенизации и стоимости для различных размеров изображений в пределах ограничений размера нашего API на основе цены Claude Sonnet 3.7 в $3 за миллион входных токенов:
Размер изображения | Количество токенов | Стоимость / изображение | Стоимость / 1K изображений |
---|---|---|---|
200x200 пикс(0.04 мегапикселя) | ~54 | ~$0.00016 | ~$0.16 |
1000x1000 пикс(1 мегапиксель) | ~1334 | ~$0.004 | ~$4.00 |
1092x1092 пикс(1.19 мегапикселя) | ~1590 | ~$0.0048 | ~$4.80 |
Обеспечение качества изображения
При предоставлении изображений Claude учитывайте следующее для лучших результатов:
- Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
- Четкость изображения: Убедитесь, что изображения четкие и не слишком размытые или пикселизированные.
- Текст: Если изображение содержит важный текст, убедитесь, что он читаемый и не слишком мелкий. Избегайте обрезки ключевого визуального контекста только для увеличения текста.
Примеры промптов
Многие из техник промптинга, которые хорошо работают для текстовых взаимодействий с Claude, также могут быть применены к промптам на основе изображений.
Эти примеры демонстрируют структуры промптов лучших практик с участием изображений.
Так же, как и с размещением документ-запрос, Claude работает лучше всего, когда изображения идут перед текстом. Изображения, размещенные после текста или интерполированные с текстом, все еще будут работать хорошо, но если ваш случай использования позволяет это, мы рекомендуем структуру изображение-затем-текст.
О примерах промптов
Следующие примеры демонстрируют, как использовать возможности зрения Claude, используя различные языки программирования и подходы. Вы можете предоставлять изображения Claude тремя способами:
- Как изображение в кодировке base64 в блоках контента
image
- Как URL-ссылку на изображение, размещенное онлайн
- Используя Files API (загрузить один раз, использовать несколько раз)
Примеры промптов base64 используют эти переменные:
Ниже приведены примеры того, как включить изображения в запрос Messages API, используя изображения в кодировке base64 и URL-ссылки:
Пример изображения в кодировке base64
Пример изображения на основе URL
Пример изображения Files API
Для изображений, которые вы будете использовать повторно, или когда вы хотите избежать накладных расходов на кодирование, используйте Files API:
См. примеры Messages API для получения дополнительного примера кода и деталей параметров.
Ограничения
Хотя возможности понимания изображений Claude являются передовыми, есть некоторые ограничения, которые следует учитывать:
- Идентификация людей: Claude не может быть использован для идентификации (т.е. именования) людей на изображениях и откажется это делать.
- Точность: Claude может галлюцинировать или делать ошибки при интерпретации низкокачественных, повернутых или очень маленьких изображений размером менее 200 пикселей.
- Пространственное мышление: Способности пространственного мышления Claude ограничены. Он может испытывать трудности с задачами, требующими точной локализации или макетов, такими как чтение аналогового циферблата часов или описание точных позиций шахматных фигур.
- Подсчет: Claude может дать приблизительные подсчеты объектов на изображении, но может не всегда быть точно точным, особенно с большим количеством мелких объектов.
- Изображения, созданные ИИ: Claude не знает, создано ли изображение ИИ, и может быть неправильным, если его спросят. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
- Неподходящий контент: Claude не будет обрабатывать неподходящие или откровенные изображения, которые нарушают нашу Политику допустимого использования.
- Медицинские приложения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканов, таких как КТ или МРТ. Выходные данные Claude не должны рассматриваться как замена профессиональной медицинской консультации или диагностики.
Всегда тщательно проверяйте и верифицируйте интерпретации изображений Claude, особенно для высокорисковых случаев использования. Не используйте Claude для задач, требующих идеальной точности или чувствительного анализа изображений без человеческого надзора.
FAQ
Углубитесь в зрение
Готовы начать строить с изображениями, используя Claude? Вот несколько полезных ресурсов:
- Мультимодальная поваренная книга: Эта поваренная книга содержит советы по началу работы с изображениями и техники лучших практик для обеспечения высочайшего качества производительности с изображениями. Посмотрите, как вы можете эффективно промптить Claude с изображениями для выполнения таких задач, как интерпретация и анализ диаграмм или извлечение содержимого из форм.
- Справочник API: Посетите нашу документацию для Messages API, включая примеры API вызовов с участием изображений.
Если у вас есть другие вопросы, не стесняйтесь обращаться к нашей команде поддержки. Вы также можете присоединиться к нашему сообществу разработчиков, чтобы связаться с другими создателями и получить помощь от экспертов Anthropic.