Контекстное окно

”Контекстное окно” относится к объему текста, который языковая модель может просматривать и ссылаться при генерации нового текста. Это отличается от большого корпуса данных, на котором была обучена языковая модель, и представляет собой “рабочую память” модели. Большее контекстное окно позволяет модели понимать и отвечать на более сложные и длинные запросы, в то время как меньшее контекстное окно может ограничивать способность модели обрабатывать длинные запросы или поддерживать согласованность в течение длительных разговоров.

Смотрите нашу таблицу сравнения моделей для списка размеров контекстных окон по моделям.

Тонкая настройка

Тонкая настройка - это процесс дальнейшего обучения предварительно обученной языковой модели с использованием дополнительных данных. Это заставляет модель начать представлять и имитировать паттерны и характеристики набора данных для тонкой настройки. Claude не является базовой языковой моделью; он уже прошел тонкую настройку, чтобы быть полезным ассистентом. Наш API в настоящее время не предлагает тонкую настройку, но, пожалуйста, обратитесь к вашему контактному лицу в Anthropic, если вы заинтересованы в изучении этой опции. Тонкая настройка может быть полезна для адаптации языковой модели к конкретной области, задаче или стилю письма, но требует тщательного рассмотрения данных для тонкой настройки и потенциального влияния на производительность и предвзятости модели.

HHH

Эти три H представляют цели Anthropic в обеспечении того, чтобы Claude был полезен для общества:

  • Helpful (полезный) ИИ будет пытаться выполнить задачу или ответить на вопрос в меру своих возможностей, предоставляя релевантную и полезную информацию.
  • Honest (честный) ИИ будет давать точную информацию, не будет галлюцинировать или конфабулировать. Он будет признавать свои ограничения и неопределенности, когда это уместно.
  • Harmless (безвредный) ИИ не будет оскорбительным или дискриминационным, и когда его просят помочь в опасном или неэтичном действии, ИИ должен вежливо отказаться и объяснить, почему он не может выполнить это.

Задержка

Задержка в контексте генеративного ИИ и больших языковых моделей относится ко времени, которое требуется модели для ответа на данный запрос. Это задержка между отправкой запроса и получением сгенерированного вывода. Меньшая задержка указывает на более быстрое время отклика, что критически важно для приложений реального времени, чатботов и интерактивного взаимодействия. Факторы, которые могут влиять на задержку, включают размер модели, возможности оборудования, сетевые условия и сложность запроса и генерируемого ответа.

LLM

Большие языковые модели (LLM) - это языковые модели ИИ со многими параметрами, способные выполнять различные удивительно полезные задачи. Эти модели обучаются на огромных объемах текстовых данных и могут генерировать человекоподобный текст, отвечать на вопросы, обобщать информацию и многое другое. Claude - это разговорный ассистент, основанный на большой языковой модели, которая была тонко настроена и обучена с использованием RLHF, чтобы быть более полезной, честной и безвредной.

Предварительное обучение

Предварительное обучение - это начальный процесс обучения языковых моделей на большом неразмеченном корпусе текста. В случае Claude, авторегрессивные языковые модели (как базовая модель Claude) предварительно обучаются предсказывать следующее слово, учитывая предыдущий контекст текста в документе. Эти предварительно обученные модели не являются изначально хорошими в ответах на вопросы или следовании инструкциям и часто требуют глубоких навыков в инженерии промптов для получения желаемого поведения. Тонкая настройка и RLHF используются для улучшения этих предварительно обученных моделей, делая их более полезными для широкого спектра задач.

RAG (Генерация с дополненным поиском)

Генерация с дополненным поиском (RAG) - это техника, которая объединяет информационный поиск с генерацией языковой модели для улучшения точности и релевантности генерируемого текста и для лучшего обоснования ответа модели доказательствами. В RAG языковая модель дополняется внешней базой знаний или набором документов, которые передаются в контекстное окно. Данные извлекаются во время выполнения, когда запрос отправляется модели, хотя сама модель не обязательно извлекает данные (но может с помощью использования инструментов и функции поиска). При генерации текста сначала должна быть извлечена релевантная информация из базы знаний на основе входного запроса, а затем передана модели вместе с исходным запросом. Модель использует эту информацию для руководства генерируемым выводом. Это позволяет модели получать доступ и использовать информацию за пределами ее обучающих данных, уменьшая зависимость от запоминания и улучшая фактическую точность генерируемого текста. RAG может быть особенно полезен для задач, требующих актуальной информации, специфических знаний в определенной области или явного цитирования источников. Однако эффективность RAG зависит от качества и релевантности внешней базы знаний и информации, которая извлекается во время выполнения.

RLHF

Обучение с подкреплением на основе обратной связи от человека (RLHF) - это техника, используемая для обучения предварительно обученной языковой модели вести себя способами, соответствующими человеческим предпочтениям. Это может включать помощь модели более эффективно следовать инструкциям или действовать более похоже на чатбот. Обратная связь от человека состоит из ранжирования набора из двух или более примеров текстов, и процесс обучения с подкреплением поощряет модель предпочитать выводы, похожие на более высоко ранжированные. Claude был обучен с использованием RLHF, чтобы стать более полезным ассистентом. Для получения дополнительной информации вы можете прочитать статью Anthropic на эту тему.

Температура

Температура - это параметр, который контролирует случайность предсказаний модели во время генерации текста. Более высокие температуры приводят к более творческим и разнообразным выводам, позволяя получать множество вариаций в формулировках и, в случае художественной литературы, вариации в ответах. Более низкие температуры приводят к более консервативным и детерминированным выводам, которые придерживаются наиболее вероятных формулировок и ответов. Настройка температуры позволяет пользователям поощрять языковую модель исследовать редкие, необычные или удивительные выборы слов и последовательности, а не только выбирать наиболее вероятные предсказания.

TTFT (Время до первого токена)

Время до первого токена (TTFT) - это метрика производительности, которая измеряет время, необходимое языковой модели для генерации первого токена вывода после получения запроса. Это важный показатель отзывчивости модели и особенно актуален для интерактивных приложений, чатботов и систем реального времени, где пользователи ожидают быстрой начальной обратной связи. Более низкий TTFT указывает на то, что модель может начать генерировать ответ быстрее, обеспечивая более плавный и привлекательный пользовательский опыт. Факторы, которые могут влиять на TTFT, включают размер модели, возможности оборудования, сетевые условия и сложность запроса.

Токены

Токены - это наименьшие отдельные единицы языковой модели, которые могут соответствовать словам, подсловам, символам или даже байтам (в случае Unicode). Для Claude токен примерно представляет 3.5 английских символа, хотя точное число может варьироваться в зависимости от используемого языка. Токены обычно скрыты при взаимодействии с языковыми моделями на уровне “текста”, но становятся актуальными при рассмотрении точных входов и выходов языковой модели. Когда Claude предоставляется текст для оценки, текст (состоящий из серии символов) кодируется в серию токенов для обработки моделью. Большие токены обеспечивают эффективность данных во время вывода и предварительного обучения (и используются, когда это возможно), в то время как меньшие токены позволяют модели обрабатывать редкие или никогда ранее не встречавшиеся слова. Выбор метода токенизации может влиять на производительность модели, размер словаря и способность обрабатывать слова, отсутствующие в словаре.