Контекстное окно

“Контекстное окно” относится к объему текста, который языковая модель может просматривать и использовать при генерации нового текста. Это отличается от большого корпуса данных, на котором была обучена языковая модель, и представляет собой “рабочую память” модели. Большее контекстное окно позволяет модели понимать и отвечать на более сложные и длинные запросы, в то время как меньшее контекстное окно может ограничивать способность модели обрабатывать длинные запросы или поддерживать согласованность в течение длительных разговоров.

Узнайте больше в нашем руководстве по пониманию контекстных окон.

Дообучение (Fine-tuning)

Дообучение - это процесс дальнейшего обучения предварительно обученной языковой модели с использованием дополнительных данных. Это заставляет модель начать представлять и имитировать паттерны и характеристики набора данных для дообучения. Claude не является базовой языковой моделью; он уже прошел дообучение, чтобы стать полезным ассистентом. Наш API в настоящее время не предлагает возможности дообучения, но, пожалуйста, обратитесь к вашему контактному лицу в Anthropic, если вы заинтересованы в изучении этой опции. Дообучение может быть полезным для адаптации языковой модели к конкретной области, задаче или стилю письма, но требует тщательного рассмотрения данных для дообучения и потенциального влияния на производительность и предвзятости модели.

HHH

Эти три H представляют цели Anthropic в обеспечении того, чтобы Claude был полезен для общества:

  • Helpful (полезный) ИИ будет пытаться выполнить задачу или ответить на вопрос в меру своих возможностей, предоставляя релевантную и полезную информацию.
  • Honest (честный) ИИ будет давать точную информацию, не будет галлюцинировать или конфабулировать. Он будет признавать свои ограничения и неопределенности, когда это уместно.
  • Harmless (безвредный) ИИ не будет оскорбительным или дискриминационным, и когда его просят помочь в опасном или неэтичном действии, ИИ должен вежливо отказаться и объяснить, почему он не может выполнить просьбу.

Задержка (Latency)

Задержка в контексте генеративного ИИ и больших языковых моделей относится ко времени, которое требуется модели для ответа на данный запрос. Это задержка между отправкой запроса и получением сгенерированного вывода. Меньшая задержка означает более быстрое время отклика, что критически важно для приложений реального времени, чат-ботов и интерактивного взаимодействия. Факторы, которые могут влиять на задержку, включают размер модели, возможности оборудования, состояние сети и сложность запроса и генерируемого ответа.

LLM

Большие языковые модели (Large Language Models, LLM) - это языковые модели искусственного интеллекта с большим количеством параметров, способные выполнять различные удивительно полезные задачи. Эти модели обучаются на огромных объемах текстовых данных и могут генерировать человекоподобный текст, отвечать на вопросы, обобщать информацию и многое другое. Claude - это разговорный ассистент, основанный на большой языковой модели, которая была дообучена и обучена с использованием RLHF, чтобы быть более полезной, честной и безвредной.

Предварительное обучение (Pretraining)

Предварительное обучение - это начальный процесс обучения языковых моделей на большом неразмеченном корпусе текста. В случае Claude, авторегрессивные языковые модели (как базовая модель Claude) предварительно обучаются предсказывать следующее слово, учитывая предыдущий контекст текста в документе. Эти предварительно обученные модели не являются изначально хорошими в ответах на вопросы или следовании инструкциям и часто требуют глубоких навыков в инженерии промптов для получения желаемого поведения. Дообучение и RLHF используются для улучшения этих предварительно обученных моделей, делая их более полезными для широкого спектра задач.

RAG (Генерация с дополнением извлечённой информацией)

Генерация с дополнением извлечённой информацией (Retrieval Augmented Generation, RAG) - это техника, которая объединяет информационный поиск с генерацией языковой модели для улучшения точности и релевантности генерируемого текста, а также для лучшего обоснования ответа модели доказательствами. В RAG языковая модель дополняется внешней базой знаний или набором документов, которые передаются в контекстное окно. Данные извлекаются во время выполнения, когда запрос отправляется модели, хотя сама модель не обязательно извлекает данные (но может это делать с использованием инструментов и функцией извлечения). При генерации текста сначала должна быть извлечена релевантная информация из базы знаний на основе входного запроса, а затем передана модели вместе с исходным запросом. Модель использует эту информацию для формирования генерируемого вывода. Это позволяет модели получать доступ и использовать информацию за пределами её обучающих данных, уменьшая зависимость от запоминания и улучшая фактическую точность генерируемого текста. RAG может быть особенно полезен для задач, требующих актуальной информации, специфических знаний в определенной области или явного цитирования источников. Однако эффективность RAG зависит от качества и релевантности внешней базы знаний и информации, извлекаемой во время выполнения.

RLHF

Обучение с подкреплением на основе обратной связи от людей (Reinforcement Learning from Human Feedback, RLHF) - это техника, используемая для обучения предварительно обученной языковой модели вести себя способами, соответствующими человеческим предпочтениям. Это может включать помощь модели более эффективно следовать инструкциям или действовать более похоже на чат-бот. Обратная связь от людей состоит в ранжировании набора из двух или более примеров текстов, и процесс обучения с подкреплением поощряет модель предпочитать выводы, похожие на более высоко оцененные. Claude был обучен с использованием RLHF, чтобы стать более полезным ассистентом. Для получения более подробной информации вы можете прочитать статью Anthropic по этой теме.

Температура

Температура - это параметр, который контролирует случайность предсказаний модели во время генерации текста. Более высокие температуры приводят к более творческим и разнообразным выводам, позволяя получать множество вариаций в формулировках и, в случае художественной литературы, вариации в ответах. Более низкие температуры приводят к более консервативным и детерминированным выводам, которые придерживаются наиболее вероятных формулировок и ответов. Настройка температуры позволяет пользователям поощрять языковую модель исследовать редкие, необычные или удивительные выборы слов и последовательности, а не только выбирать наиболее вероятные предсказания.

TTFT (Время до первого токена)

Время до первого токена (Time to First Token, TTFT) - это метрика производительности, которая измеряет время, необходимое языковой модели для генерации первого токена вывода после получения запроса. Это важный показатель отзывчивости модели и особенно актуален для интерактивных приложений, чат-ботов и систем реального времени, где пользователи ожидают быстрой начальной обратной связи. Более низкий TTFT указывает на то, что модель может начать генерировать ответ быстрее, обеспечивая более плавный и привлекательный пользовательский опыт. Факторы, которые могут влиять на TTFT, включают размер модели, возможности оборудования, состояние сети и сложность запроса.

Токены

Токены - это наименьшие отдельные единицы языковой модели, которые могут соответствовать словам, частям слов, символам или даже байтам (в случае Unicode). Для Claude токен примерно соответствует 3.5 английским символам, хотя точное число может варьироваться в зависимости от используемого языка. Токены обычно скрыты при взаимодействии с языковыми моделями на уровне “текста”, но становятся актуальными при рассмотрении точных входных и выходных данных языковой модели. Когда Claude получает текст для обработки, текст (состоящий из последовательности символов) кодируется в последовательность токенов для обработки моделью. Более крупные токены обеспечивают эффективность данных во время вывода и предварительного обучения (и используются, когда это возможно), в то время как меньшие токены позволяют модели обрабатывать редкие или никогда ранее не встречавшиеся слова. Выбор метода токенизации может влиять на производительность модели, размер словаря и способность обрабатывать слова, отсутствующие в словаре.