컨텍스트 윈도우

“컨텍스트 윈도우”는 언어 모델이 새로운 텍스트를 생성할 때 참조할 수 있는 텍스트의 양을 의미합니다. 이는 언어 모델이 학습한 방대한 데이터 코퍼스와는 다르며, 모델의 “작업 메모리”를 나타냅니다. 더 큰 컨텍스트 윈도우는 모델이 더 복잡하고 긴 프롬프트를 이해하고 응답할 수 있게 해주는 반면, 더 작은 컨텍스트 윈도우는 모델이 긴 프롬프트를 처리하거나 확장된 대화에서 일관성을 유지하는 능력을 제한할 수 있습니다.

모델별 컨텍스트 윈도우 크기 목록은 모델 비교 표를 참조하세요.

파인 튜닝

파인 튜닝은 추가 데이터를 사용하여 사전 학습된 언어 모델을 추가로 학습시키는 과정입니다. 이로 인해 모델은 파인 튜닝 데이터셋의 패턴과 특성을 표현하고 모방하기 시작합니다. Claude는 단순한 언어 모델이 아니라 유용한 어시스턴트가 되도록 이미 파인 튜닝되었습니다. 현재 Anthropic API는 파인 튜닝을 제공하지 않지만, 이 옵션을 탐색하는 데 관심이 있다면 Anthropic 담당자에게 문의하세요. 파인 튜닝은 언어 모델을 특정 도메인, 작업 또는 작문 스타일에 적응시키는 데 유용할 수 있지만, 파인 튜닝 데이터와 모델의 성능 및 편향에 미치는 잠재적 영향을 신중하게 고려해야 합니다.

HHH

이 세 개의 H는 Claude가 사회에 유익하도록 보장하기 위한 Anthropic의 목표를 나타냅니다:

  • Helpful(도움이 되는) AI는 주어진 작업을 수행하거나 질문에 최선을 다해 답변하며, 관련성 있고 유용한 정보를 제공합니다.
  • Honest(정직한) AI는 정확한 정보를 제공하며, 환각이나 날조를 하지 않습니다. 적절한 경우 자신의 한계와 불확실성을 인정합니다.
  • Harmless(해롭지 않은) AI는 공격적이거나 차별적이지 않으며, 위험하거나 비윤리적인 행동을 돕도록 요청받았을 때 정중하게 거절하고 그 이유를 설명합니다.

지연 시간

생성형 AI와 대규모 언어 모델의 맥락에서 지연 시간은 주어진 프롬프트에 대해 모델이 응답하는 데 걸리는 시간을 의미합니다. 프롬프트를 제출하고 생성된 출력을 받는 사이의 지연입니다. 지연 시간이 낮을수록 응답 시간이 빨라지며, 이는 실시간 애플리케이션, 챗봇 및 대화형 경험에 매우 중요합니다. 지연 시간에 영향을 미칠 수 있는 요인으로는 모델 크기, 하드웨어 성능, 네트워크 상태, 프롬프트의 복잡성 및 생성된 응답 등이 있습니다.

LLM

대규모 언어 모델(LLM)은 많은 매개변수를 가진 AI 언어 모델로, 놀라울 정도로 유용한 다양한 작업을 수행할 수 있습니다. 이러한 모델은 방대한 양의 텍스트 데이터로 학습되며, 사람과 유사한 텍스트를 생성하고, 질문에 답하고, 정보를 요약하는 등의 작업을 수행할 수 있습니다. Claude는 RLHF를 사용하여 더 도움이 되고, 정직하며, 해롭지 않도록 파인 튜닝되고 학습된 대규모 언어 모델을 기반으로 한 대화형 어시스턴트입니다.

사전 학습

사전 학습은 대규모의 레이블이 없는 텍스트 코퍼스에 대해 언어 모델을 초기에 학습시키는 과정입니다. Claude의 경우, 자기회귀 언어 모델(Claude의 기본 모델과 같은)은 문서의 이전 컨텍스트를 고려하여 다음 단어를 예측하도록 사전 학습됩니다. 이러한 사전 학습된 모델은 본질적으로 질문에 답하거나 지시를 따르는 데 능숙하지 않으며, 종종 원하는 동작을 이끌어내기 위해 프롬프트 엔지니어링에 대한 깊은 기술이 필요합니다. 파인 튜닝과 RLHF는 이러한 사전 학습된 모델을 개선하여 다양한 작업에 더 유용하게 만드는 데 사용됩니다.

RAG (검색 증강 생성)

검색 증강 생성(RAG)은 정보 검색과 언어 모델 생성을 결합하여 생성된 텍스트의 정확성과 관련성을 개선하고, 모델의 응답을 증거에 더 잘 기반하도록 하는 기술입니다. RAG에서는 언어 모델이 컨텍스트 윈도우로 전달되는 외부 지식 베이스 또는 문서 집합으로 증강됩니다. 데이터는 모델에 쿼리가 전송될 때 실행 시간에 검색되지만, 모델 자체가 반드시 데이터를 검색하는 것은 아닙니다(도구 사용과 검색 기능으로는 가능). 텍스트를 생성할 때, 먼저 입력 프롬프트를 기반으로 지식 베이스에서 관련 정보를 검색한 다음, 원래 쿼리와 함께 모델에 전달해야 합니다. 모델은 이 정보를 사용하여 생성하는 출력을 안내합니다. 이를 통해 모델은 학습 데이터를 넘어서는 정보에 접근하고 활용할 수 있으므로, 암기에 대한 의존도를 줄이고 생성된 텍스트의 사실적 정확성을 개선할 수 있습니다. RAG는 최신 정보, 도메인 특화 지식 또는 출처의 명시적 인용이 필요한 작업에 특히 유용할 수 있습니다. 그러나 RAG의 효과는 외부 지식 베이스의 품질과 관련성, 그리고 실행 시간에 검색되는 지식에 따라 달라집니다.

RLHF

인간 피드백 강화 학습(RLHF)은 사전 학습된 언어 모델을 인간의 선호도와 일치하는 방식으로 동작하도록 학습시키는 데 사용되는 기술입니다. 여기에는 모델이 지시를 더 효과적으로 따르거나 챗봇처럼 행동하도록 돕는 것이 포함될 수 있습니다. 인간 피드백은 두 개 이상의 예시 텍스트 집합을 순위 매기는 것으로 구성되며, 강화 학습 과정은 모델이 순위가 높은 출력과 유사한 출력을 선호하도록 장려합니다. Claude는 RLHF를 사용하여 더 유용한 어시스턴트가 되도록 학습되었습니다. 자세한 내용은 Anthropic의 관련 논문을 참조하세요.

온도

온도는 텍스트 생성 중 모델의 예측 무작위성을 제어하는 매개변수입니다. 온도가 높을수록 더 창의적이고 다양한 출력이 생성되어 표현의 다양한 변형과 소설의 경우 답변의 변형도 가능합니다. 온도가 낮을수록 가장 가능성 있는 표현과 답변을 고수하는 보수적이고 결정론적인 출력이 생성됩니다. 온도를 조정하면 사용자가 언어 모델이 가장 가능성 있는 예측만 선택하는 것이 아니라 희귀하거나 흔하지 않거나 놀라운 단어 선택과 시퀀스를 탐색하도록 장려할 수 있습니다. Claude Slackbot은 응답을 생성할 때 0이 아닌 온도를 사용하므로 일관성과 관련성을 유지하면서도 답변에 약간의 변화를 줄 수 있습니다.

TTFT (첫 번째 토큰까지의 시간)

첫 번째 토큰까지의 시간(TTFT)은 프롬프트를 받은 후 언어 모델이 출력의 첫 번째 토큰을 생성하는 데 걸리는 시간을 측정하는 성능 지표입니다. 이는 모델의 응답성을 나타내는 중요한 지표이며, 사용자가 빠른 초기 피드백을 기대하는 대화형 애플리케이션, 챗봇 및 실시간 시스템과 특히 관련이 있습니다. TTFT가 낮을수록 모델이 더 빨리 응답 생성을 시작할 수 있으므로 더 원활하고 매력적인 사용자 경험을 제공할 수 있습니다. TTFT에 영향을 미칠 수 있는 요인으로는 모델 크기, 하드웨어 성능, 네트워크 상태 및 프롬프트의 복잡성 등이 있습니다.

토큰

토큰은 언어 모델의 가장 작은 개별 단위로, 단어, 하위 단어, 문자 또는 심지어 바이트(유니코드의 경우)에 해당할 수 있습니다. Claude의 경우 토큰은 약 3.5개의 영어 문자를 나타내지만, 사용되는 언어에 따라 정확한 수는 달라질 수 있습니다. 토큰은 일반적으로 “텍스트” 수준에서 언어 모델과 상호 작용할 때는 숨겨져 있지만 언어 모델의 정확한 입력과 출력을 검사할 때는 관련이 있습니다. Claude에 평가할 텍스트가 제공되면 텍스트(일련의 문자로 구성)가 모델이 처리할 수 있는 일련의 토큰으로 인코딩됩니다. 더 큰 토큰은 추론 및 사전 학습 중에 데이터 효율성을 가능하게 하며(가능한 경우 활용됨), 더 작은 토큰은 모델이 드물거나 이전에 본 적이 없는 단어를 처리할 수 있게 합니다. 토큰화 방법의 선택은 모델의 성능, 어휘 크기 및 어휘 외 단어 처리 능력에 영향을 미칠 수 있습니다.