Возможности

Эмбеддинги

Текстовые эмбеддинги - это числовые представления текста, позволяющие измерять семантическое сходство. Это руководство знакомит с эмбеддингами, их применением и использованием моделей эмбеддингов для таких задач, как поиск, рекомендации и обнаружение аномалий.

Перед внедрением эмбеддингов

При выборе провайдера эмбеддингов следует учитывать несколько факторов в зависимости от ваших потребностей и предпочтений:

Размер набора данных и специфика предметной области: размер набора данных для обучения модели и его релевантность для области, в которой вы хотите создавать эмбеддинги. Более крупные или специализированные данные обычно дают лучшие эмбеддинги в конкретной области
Производительность при выводе: скорость поиска эмбеддингов и общая задержка. Это особенно важно для масштабных производственных развертываний
Настройка: возможности дальнейшего обучения на частных данных или специализации моделей для конкретных областей. Это может улучшить работу с уникальными словарями

Как получить эмбеддинги с Anthropic

Anthropic не предлагает собственную модель эмбеддингов. Одним из провайдеров эмбеддингов, который предлагает широкий спектр возможностей, охватывающих все вышеперечисленные аспекты, является Voyage AI.

Voyage AI создает современные модели эмбеддингов и предлагает настроенные модели для конкретных отраслей, таких как финансы и здравоохранение, или специальные модели, настроенные для отдельных клиентов.

Остальная часть этого руководства посвящена Voyage AI, но мы рекомендуем вам оценить различных поставщиков эмбеддингов, чтобы найти наиболее подходящий вариант для вашего конкретного случая.

Доступные модели

Voyage рекомендует использовать следующие модели текстовых эмбеддингов:

Модель	Длина контекста	Размерность эмбеддинга	Описание
`voyage-3-large`	32,000	1024 (по умолчанию), 256, 512, 2048	Лучшее качество для общего назначения и многоязычного поиска.
`voyage-3`	32,000	1024	Оптимизирована для общего назначения и многоязычного поиска. Подробности в блоге.
`voyage-3-lite`	32,000	512	Оптимизирована для низкой задержки и стоимости. Подробности в блоге.
`voyage-code-3`	32,000	1024 (по умолчанию), 256, 512, 2048	Оптимизирована для поиска кода. Подробности в блоге.
`voyage-finance-2`	32,000	1024	Оптимизирована для финансового поиска и RAG. Подробности в блоге.
`voyage-law-2`	16,000	1024	Оптимизирована для юридического и длинного контекста поиска и RAG. Также улучшена производительность во всех областях. Подробности в блоге.

Дополнительно рекомендуются следующие мультимодальные модели эмбеддингов:

Модель	Длина контекста	Размерность эмбеддинга	Описание
`voyage-multimodal-3`	32000	1024	Богатая мультимодальная модель эмбеддингов, способная векторизовать чередующийся текст и содержательные изображения, такие как скриншоты PDF, слайды, таблицы, рисунки и многое другое. Подробности в блоге.

Нужна помощь в выборе модели текстовых эмбеддингов? Ознакомьтесь с FAQ.

Начало работы с Voyage AI

Для доступа к эмбеддингам Voyage:

Зарегистрируйтесь на сайте Voyage AI
Получите API ключ
Установите API ключ как переменную окружения для удобства:

export VOYAGE_API_KEY="<ваш секретный ключ>"

Вы можете получить эмбеддинги, используя либо официальный voyageai Python пакет, либо HTTP запросы, как описано ниже.

Python пакет Voyage

Пакет voyageai можно установить с помощью следующей команды:

pip install -U voyageai

Затем вы можете создать объект клиента и начать использовать его для создания эмбеддингов ваших текстов:

import voyageai

vo = voyageai.Client()
# Это автоматически использует переменную окружения VOYAGE_API_KEY.
# Альтернативно, можно использовать vo = voyageai.Client(api_key="<ваш секретный ключ>")

texts = ["Пример текста 1", "Пример текста 2"]

result = vo.embed(texts, model="voyage-3", input_type="document")
print(result.embeddings[0])
print(result.embeddings[1])

result.embeddings будет списком из двух векторов эмбеддингов, каждый из которых содержит 1024 числа с плавающей точкой. После выполнения вышеуказанного кода, два эмбеддинга будут выведены на экран:

[0.02012746, 0.01957859, ...]  # эмбеддинг для "Пример текста 1"
[0.01429677, 0.03077182, ...]  # эмбеддинг для "Пример текста 2"

При создании эмбеддингов вы также можете указать несколько других аргументов для функции embed(). Подробнее о спецификации можно прочитать здесь

HTTP API Voyage

Вы также можете получить эмбеддинги, отправив HTTP запрос через команду curl в терминале:

curl https://api.voyageai.com/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $VOYAGE_API_KEY" \
  -d '{
    "input": ["Пример текста 1", "Пример текста 2"],
    "model": "voyage-3"
  }'

Ответ, который вы получите, будет JSON объектом, содержащим эмбеддинги и использование токенов:

{
  "object": "list",
  "data": [
    {
      "embedding": [0.02012746, 0.01957859, ...],
      "index": 0
    },
    {
      "embedding": [0.01429677, 0.03077182, ...],
      "index": 1
    }
  ],
  "model": "voyage-3",
  "usage": {
    "total_tokens": 10
  }
}

Подробнее о конечной точке эмбеддингов можно прочитать в документации Voyage

AWS Marketplace

Эмбеддинги Voyage также доступны на AWS Marketplace. Инструкции по доступу к Voyage на AWS доступны здесь.

Пример быстрого старта

Теперь, когда мы знаем, как получить эмбеддинги, давайте рассмотрим краткий пример.

Предположим, у нас есть небольшой корпус из шести документов для поиска

documents = [
    "Средиземноморская диета делает акцент на рыбе, оливковом масле и овощах, считается, что она снижает риск хронических заболеваний.",
    "Фотосинтез в растениях преобразует световую энергию в глюкозу и производит необходимый кислород.",
    "Инновации 20-го века, от радио до смартфонов, были сосредоточены на электронных достижениях.",
    "Реки обеспечивают водой, орошением и средой обитания для водных видов, жизненно важных для экосистем.",
    "Конференц-звонок Apple для обсуждения результатов четвертого финансового квартала и обновлений бизнеса запланирован на четверг, 2 ноября 2023 года в 14:00 PT / 17:00 ET.",
    "Произведения Шекспира, такие как 'Гамлет' и 'Сон в летнюю ночь', остаются в литературе."
]

Сначала мы используем Voyage для преобразования каждого из них в вектор эмбеддинга

import voyageai

vo = voyageai.Client()

# Создаем эмбеддинги документов
doc_embds = vo.embed(
    documents, model="voyage-3", input_type="document"
).embeddings

Эмбеддинги позволят нам выполнять семантический поиск / извлечение в векторном пространстве. Для примера запроса,

query = "Когда запланирован конференц-звонок Apple?"

мы преобразуем его в эмбеддинг и проводим поиск ближайшего соседа, чтобы найти наиболее релевантный документ на основе расстояния в пространстве эмбеддингов.

import numpy as np

# Создаем эмбеддинг запроса
query_embd = vo.embed(
    [query], model="voyage-3", input_type="query"
).embeddings[0]

# Вычисляем сходство
# Эмбеддинги Voyage нормализованы до длины 1, поэтому скалярное произведение
# и косинусное сходство одинаковы.
similarities = np.dot(doc_embds, query_embd)

retrieved_id = np.argmax(similarities)
print(documents[retrieved_id])

Обратите внимание, что мы используем input_type="document" и input_type="query" для создания эмбеддингов документа и запроса соответственно. Более подробную спецификацию можно найти здесь.

Результатом будет 5-й документ, который действительно наиболее релевантен запросу:

Конференц-звонок Apple для обсуждения результатов четвертого финансового квартала и обновлений бизнеса запланирован на четверг, 2 ноября 2023 года в 14:00 PT / 17:00 ET.

Если вы ищете подробный набор руководств по работе с RAG с использованием эмбеддингов, включая векторные базы данных, ознакомьтесь с нашим руководством по RAG.

FAQ

Почему эмбеддинги Voyage имеют превосходное качество?

Какие модели эмбеддингов доступны и какую следует использовать?

Какую функцию сходства следует использовать?

Как следует использовать параметр input_type?

Для задач поиска, включая RAG, всегда указывайте input_type как “query” или “document”. Эта оптимизация улучшает качество поиска через специализированные префиксы промптов:

Для запросов:

Представьте запрос для поиска поддерживающих документов: [ваш запрос]

Для документов:

Представьте документ для поиска: [ваш документ]

Никогда не опускайте input_type и не устанавливайте его в None для задач поиска.

Для классификации, кластеризации или других задач MTEB с использованием voyage-large-2-instruct, следуйте инструкциям в нашем GitHub репозитории.

Какие варианты квантования доступны?

Квантование уменьшает хранение, память и затраты путем преобразования значений высокой точности в форматы с меньшей точностью. Доступные типы выходных данных (output_dtype):

Тип	Описание	Уменьшение размера
`float`	32-битное число с плавающей точкой одинарной точности (по умолчанию)	Нет
`int8`/`uint8`	8-битные целые числа (-128 до 127 / 0 до 255)	4x
`binary`/`ubinary`	Упакованные однобитные значения	32x

Бинарные типы используют 8-битные целые числа для представления упакованных битов, при этом binary использует метод смещенного двоичного кода.

Пример: Бинарное квантование преобразует восемь значений эмбеддинга в одно 8-битное целое число:

Оригинал: [-0.03955078, 0.006214142, -0.07446289, -0.039001465, 
          0.0046463013, 0.00030612946, -0.08496094, 0.03994751]
Бинарный: [0, 1, 0, 0, 1, 1, 0, 1] → 01001101
uint8:    77
int8:     -51 (используя смещенный двоичный код)

Как можно усечь матрёшка-эмбеддинги?

Матрёшка-эмбеддинги содержат представления от грубых до точных, которые можно усечь, сохранив ведущие размерности. Вот как усечь 1024D векторы до 256D:

import voyageai
import numpy as np

def embd_normalize(v: np.ndarray) -> np.ndarray:
    """
    Нормализует векторы эмбеддингов до единичной длины.
    Вызывает ValueError, если какая-либо строка имеет нулевую норму.
    """
    row_norms = np.linalg.norm(v, axis=1, keepdims=True)
    if np.any(row_norms == 0):
        raise ValueError("Невозможно нормализовать строки с нулевой нормой.")
    return v / row_norms

# Инициализация клиента
vo = voyageai.Client()

# Генерация 1024D векторов
embd = vo.embed(['Пример текста 1', 'Пример текста 2'], 
               model='voyage-code-3').embeddings

# Усечение до 256D
short_dim = 256
resized_embd = embd_normalize(
    np.array(embd)[:, :short_dim]
).tolist()

Цены

Посетите страницу с ценами Voyage для получения актуальной информации о ценах.

Подсчет токенов Зрение

On this page

Перед внедрением эмбеддингов
Как получить эмбеддинги с Anthropic
Доступные модели
Начало работы с Voyage AI
Python пакет Voyage
HTTP API Voyage
AWS Marketplace
Пример быстрого старта
FAQ
Цены

Первые шаги

Модели и цены

Узнать о Claude

Возможности

Инструменты

Протокол контекста модели (MCP)

Примеры использования

Промпт-инженерия

Тестирование и оценка

Укрепление ограничений

Юридический центр

Эмбеддинги

Перед внедрением эмбеддингов

Как получить эмбеддинги с Anthropic

Доступные модели

Начало работы с Voyage AI

Python пакет Voyage

HTTP API Voyage

AWS Marketplace

Пример быстрого старта

FAQ

Цены

Первые шаги

Модели и цены

Узнать о Claude

Возможности

Инструменты

Протокол контекста модели (MCP)

Примеры использования

Промпт-инженерия

Тестирование и оценка

Укрепление ограничений

Юридический центр

​Перед внедрением эмбеддингов

​Как получить эмбеддинги с Anthropic

​Доступные модели

​Начало работы с Voyage AI

​Python пакет Voyage

​HTTP API Voyage

​AWS Marketplace

​Пример быстрого старта

​FAQ

​Цены

Перед внедрением эмбеддингов

Как получить эмбеддинги с Anthropic

Доступные модели

Начало работы с Voyage AI

Python пакет Voyage

HTTP API Voyage

AWS Marketplace

Пример быстрого старта

FAQ

Цены