Зрение
Семейство моделей Claude 3 обладает новыми возможностями зрения, которые позволяют Claude понимать и анализировать изображения, открывая захватывающие возможности для мультимодального взаимодействия.
Это руководство описывает, как работать с изображениями в Claude, включая лучшие практики, примеры кода и ограничения, которые следует учитывать.
Как использовать зрение
Используйте возможности зрения Claude через:
- claude.ai. Загрузите изображение так же, как вы загружаете файл, или перетащите изображение прямо в окно чата.
- Console Workbench. Если вы выберете модель, которая принимает изображения (только модели Claude 3), кнопка добавления изображений появится в правом верхнем углу каждого блока сообщений пользователя.
- API-запрос. См. примеры в этом руководстве.
Перед загрузкой
Оцените размер изображения
Вы можете включить несколько изображений в один запрос (до 5 для claude.ai и до 20 для API-запросов). Claude проанализирует все предоставленные изображения при формулировании своего ответа. Это может быть полезно для сравнения или сопоставления изображений.
Для оптимальной производительности мы рекомендуем изменять размер изображений перед загрузкой, если они превышают ограничения по размеру или токенам. Если длинный край вашего изображения превышает 1568 пикселей или ваше изображение содержит более ~1600 токенов, оно сначала будет уменьшено с сохранением соотношения сторон, пока не будет соответствовать ограничениям по размеру.
Если ваше входное изображение слишком велико и требует изменения размера, это увеличит задержку времени до первого токена, не давая вам никакой дополнительной производительности модели. Очень маленькие изображения размером менее 200 пикселей по любому краю могут ухудшить производительность.
Вот таблица максимальных размеров изображений, принимаемых нашим API, которые не будут изменены для распространенных соотношений сторон. С моделью Claude 3.5 Sonnet эти изображения используют примерно 1600 токенов и около $4,80 за 1000 изображений.
Соотношение сторон | Размер изображения |
---|---|
1:1 | 1092x1092 px |
3:4 | 951x1268 px |
2:3 | 896x1344 px |
9:16 | 819x1456 px |
1:2 | 784x1568 px |
Рассчитайте стоимость изображений
Каждое изображение, включенное в запрос к Claude, учитывается в вашем использовании токенов. Чтобы рассчитать приблизительную стоимость, умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете.
Если ваше изображение не требует изменения размера, вы можете оценить количество используемых токенов с помощью этого алгоритма: токены = (ширина px * высота px)/750
Вот примеры приблизительной токенизации и стоимости для изображений разных размеров в пределах ограничений размера нашего API на основе цены за токен Claude 3.5 Sonnet в размере $3 за миллион входных токенов:
Размер изображения | Количество токенов | Стоимость/изображение | Стоимость/1000 изображений |
---|---|---|---|
200x200 px (0,04 мегапикселя) | ~54 | ~$0,00016 | ~$0,16 |
1000x1000 px (1 мегапиксель) | ~1334 | ~$0,004 | ~$4,00 |
1092x1092 px (1,19 мегапикселя) | ~1590 | ~$0,0048 | ~$4,80 |
Обеспечение качества изображения
При предоставлении изображений Claude учитывайте следующее для достижения наилучших результатов:
- Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
- Четкость изображения: Убедитесь, что изображения четкие и не слишком размытые или пикселизованные.
- Текст: Если изображение содержит важный текст, убедитесь, что он разборчив и не слишком мелкий. Избегайте обрезки ключевого визуального контекста только для увеличения текста.
Примеры запросов
Многие методы составления запросов, которые хорошо работают для текстовых взаимодействий с Claude, также могут быть применены к запросам на основе изображений.
Эти примеры демонстрируют структуры запросов с передовыми практиками, включающие изображения.
О примерах запросов
Эти примеры запросов используют Anthropic Python SDK и получают изображения из Википедии с помощью библиотеки httpx
. Вы можете использовать любой источник изображений.
Примеры запросов используют эти переменные.
import base64
import httpx
image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.b64encode(httpx.get(image1_url).content).decode("utf-8")
image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.b64encode(httpx.get(image2_url).content).decode("utf-8")
Чтобы использовать изображения при выполнении API-запроса, вы можете предоставить изображения Claude в виде изображения в кодировке base64 в блоках содержимого image
. Вот простой пример на Python, показывающий, как включить изображение в кодировке base64 в запрос Messages API:
import anthropic
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": image1_media_type,
"data": image1_data,
},
},
{
"type": "text",
"text": "Опишите это изображение."
}
],
}
],
)
print(message)
Смотрите примеры Messages API для получения дополнительных примеров кода и деталей параметров.
Ограничения
Хотя возможности понимания изображений Claude находятся на передовом уровне, есть некоторые ограничения, о которых следует знать:
- Идентификация людей: Claude не может быть использован для идентификации (т.е. называния) людей на изображениях и откажется это делать.
- Точность: Claude может галлюцинировать или делать ошибки при интерпретации изображений низкого качества, повернутых или очень маленьких изображений размером менее 200 пикселей.
- Пространственное мышление: Способности Claude к пространственному мышлению ограничены. Он может испытывать трудности с задачами, требующими точной локализации или компоновки, например, чтения циферблата аналоговых часов или описания точного положения шахматных фигур.
- Подсчет: Claude может давать приблизительное количество объектов на изображении, но может быть не всегда точным, особенно при большом количестве мелких объектов.
- Сгенерированные ИИ изображения: Claude не знает, сгенерировано ли изображение ИИ, и может ошибаться, если его спросить. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
- Неподходящий контент: Claude не будет обрабатывать неподходящие или откровенные изображения, нарушающие нашу Политику допустимого использования.
- Применение в здравоохранении: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканов, таких как КТ или МРТ. Выводы Claude не следует рассматривать как замену профессиональных медицинских консультаций или диагностики.
Всегда тщательно проверяйте интерпретации изображений Claude, особенно для ответственных случаев использования. Не используйте Claude для задач, требующих идеальной точности или конфиденциального анализа изображений без надзора человека.
FAQ
Углубитесь в зрение
Готовы начать работу с изображениями, используя Claude? Вот несколько полезных ресурсов:
- Мультимодальная кулинарная книга: Эта кулинарная книга содержит советы по началу работы с изображениями и методы лучших практик для обеспечения наивысшего качества работы с изображениями. Посмотрите, как вы можете эффективно подсказывать Claude с помощью изображений для выполнения таких задач, как интерпретация и анализ диаграмм или извлечение содержимого из форм.
- Справочник по API: Посетите нашу документацию по Messages API, включая пример API-вызовов с изображениями.
Если у вас есть другие вопросы, не стесняйтесь обращаться в нашу службу поддержки. Вы также можете присоединиться к нашему сообществу разработчиков, чтобы связаться с другими создателями и получить помощь от экспертов Anthropic.