Контекстное окно

“Контекстное окно” относится к количеству текста, которое языковая модель может просмотреть и на которое может ссылаться при генерации нового текста. Это отличается от большого корпуса данных, на котором обучалась языковая модель, и вместо этого представляет собой “рабочую память” для модели. Большее контекстное окно позволяет модели понимать и реагировать на более сложные и длинные запросы, в то время как меньшее контекстное окно может ограничивать способность модели обрабатывать более длинные запросы или поддерживать связность в ходе длительных разговоров.

Смотрите нашу таблицу сравнения моделей для списка размеров контекстных окон по моделям.

Дообучение (Fine-tuning)

Дообучение - это процесс дальнейшего обучения предварительно обученной языковой модели с использованием дополнительных данных. Это заставляет модель начать представлять и имитировать шаблоны и характеристики набора данных для дообучения. Claude - это не просто языковая модель; он уже был дообучен, чтобы быть полезным ассистентом. Наш API в настоящее время не предлагает дообучение, но, пожалуйста, спросите своего контакта в Anthropic, если вы заинтересованы в изучении этой опции. Дообучение может быть полезным для адаптации языковой модели к конкретной области, задаче или стилю письма, но оно требует тщательного рассмотрения данных для дообучения и потенциального влияния на производительность и предвзятость модели.

HHH

Эти три буквы H представляют цели Anthropic в обеспечении того, чтобы Claude был полезен для общества:

  • Helpful (Полезный) ИИ будет пытаться выполнить поставленную задачу или ответить на вопрос в меру своих возможностей, предоставляя актуальную и полезную информацию.
  • Honest (Честный) ИИ будет предоставлять точную информацию и не будет фантазировать или выдумывать. Он признает свои ограничения и неопределенности, когда это уместно.
  • Harmless (Безвредный) ИИ не будет оскорбительным или дискриминационным, и когда его попросят помочь в опасном или неэтичном действии, ИИ должен вежливо отказаться и объяснить, почему он не может выполнить просьбу.

Задержка (Latency)

Задержка в контексте генеративного ИИ и больших языковых моделей относится ко времени, которое требуется модели для ответа на данный запрос. Это задержка между отправкой запроса и получением сгенерированного вывода. Меньшая задержка указывает на более быстрое время отклика, что имеет решающее значение для приложений реального времени, чат-ботов и интерактивных приложений. Факторы, которые могут влиять на задержку, включают размер модели, возможности оборудования, условия сети, а также сложность запроса и сгенерированного ответа.

LLM

Большие языковые модели (LLM) - это языковые модели ИИ со многими параметрами, которые способны выполнять множество удивительно полезных задач. Эти модели обучаются на огромных объемах текстовых данных и могут генерировать похожий на человеческий текст, отвечать на вопросы, обобщать информацию и многое другое. Claude - это разговорный ассистент, основанный на большой языковой модели, которая была дообучена и обучена с использованием RLHF, чтобы быть более полезным, честным и безвредным.

Предварительное обучение (Pretraining)

Предварительное обучение - это начальный процесс обучения языковых моделей на большом неразмеченном корпусе текста. В случае Claude, авторегрессивные языковые модели (такие как базовая модель Claude) предварительно обучаются предсказывать следующее слово с учетом предыдущего контекста текста в документе. Эти предварительно обученные модели не обязательно хорошо подходят для ответов на вопросы или следования инструкциям и часто требуют глубоких навыков в разработке запросов для получения желаемого поведения. Дообучение и RLHF используются для уточнения этих предварительно обученных моделей, делая их более полезными для широкого спектра задач.

RAG (Генерация, дополненная поиском)

Генерация, дополненная поиском (RAG), - это метод, который объединяет поиск информации с генерацией языковой модели для повышения точности и релевантности сгенерированного текста, а также для лучшего обоснования ответа модели на основе доказательств. В RAG языковая модель дополняется внешней базой знаний или набором документов, которые передаются в контекстное окно. Данные извлекаются во время выполнения, когда запрос отправляется в модель, хотя сама модель не обязательно извлекает данные (но может с помощью использования инструментов и функции поиска). При генерации текста сначала необходимо извлечь соответствующую информацию из базы знаний на основе входного запроса, а затем передать ее модели вместе с исходным запросом. Модель использует эту информацию для управления генерируемым выводом. Это позволяет модели получать доступ и использовать информацию, выходящую за рамки ее обучающих данных, уменьшая зависимость от запоминания и повышая фактическую точность сгенерированного текста. RAG может быть особенно полезен для задач, требующих актуальной информации, специфичных для домена знаний или явного цитирования источников. Однако эффективность RAG зависит от качества и релевантности внешней базы знаний и знаний, которые извлекаются во время выполнения.

RLHF

Обучение с подкреплением на основе обратной связи от человека (RLHF) - это метод, используемый для обучения предварительно обученной языковой модели вести себя в соответствии с предпочтениями человека. Это может включать в себя помощь модели в более эффективном следовании инструкциям или действиям, более похожим на чат-бота. Обратная связь от человека состоит в ранжировании набора из двух или более примеров текста, и процесс обучения с подкреплением поощряет модель отдавать предпочтение выводам, которые похожи на выводы с более высоким рангом. Claude был обучен с использованием RLHF, чтобы быть более полезным ассистентом. Для получения более подробной информации вы можете прочитать статью Anthropic на эту тему.

Температура (Temperature)

Температура - это параметр, который контролирует случайность предсказаний модели во время генерации текста. Более высокие температуры приводят к более творческим и разнообразным выводам, позволяя использовать несколько вариантов формулировок и, в случае художественной литературы, вариации ответов. Более низкие температуры приводят к более консервативным и детерминированным выводам, которые придерживаются наиболее вероятных формулировок и ответов. Регулировка температуры позволяет пользователям поощрять языковую модель исследовать редкие, необычные или удивительные варианты слов и последовательностей, а не только выбирать наиболее вероятные предсказания. Claude Slackbot использует ненулевую температуру при генерации ответов, что позволяет получать некоторые вариации в его ответах при сохранении связности и релевантности.

TTFT (Время до первого токена)

Время до первого токена (TTFT) - это показатель производительности, который измеряет время, необходимое языковой модели для генерации первого токена своего вывода после получения запроса. Это важный показатель отзывчивости модели и особенно актуален для интерактивных приложений, чат-ботов и систем реального времени, где пользователи ожидают быстрой первоначальной обратной связи. Более низкий TTFT указывает на то, что модель может начать генерировать ответ быстрее, обеспечивая более плавный и увлекательный пользовательский опыт. Факторы, которые могут влиять на TTFT, включают размер модели, возможности оборудования, условия сети и сложность запроса.

Токены

Токены - это наименьшие отдельные единицы языковой модели и могут соответствовать словам, подсловам, символам или даже байтам (в случае Unicode). Для Claude один токен приблизительно представляет 3,5 символа английского языка, хотя точное число может варьироваться в зависимости от используемого языка. Токены обычно скрыты при взаимодействии с языковыми моделями на уровне “текста”, но становятся актуальными при изучении точных входных и выходных данных языковой модели. Когда Claude предоставляется текст для оценки, текст (состоящий из серии символов) кодируется в серию токенов для обработки моделью. Более крупные токены обеспечивают эффективность данных во время вывода и предварительного обучения (и используются по возможности), в то время как более мелкие токены позволяют модели обрабатывать редкие или никогда ранее не встречавшиеся слова. Выбор метода токенизации может повлиять на производительность модели, размер словаря и способность обрабатывать слова, отсутствующие в словаре.