用語集
これらの概念はAnthropicの言語モデルに固有のものではありませんが、主要な用語の簡単な概要を以下に示します。
コンテキストウィンドウ
「コンテキストウィンドウ」とは、言語モデルが新しいテキストを生成する際に参照できるテキストの量を指します。これは言語モデルが学習した大規模なデータコーパスとは異なり、モデルの「作業メモリ」を表します。より大きなコンテキストウィンドウにより、モデルはより複雑で長いプロンプトを理解し応答することができますが、小さなコンテキストウィンドウでは、より長いプロンプトを処理したり、長期的な会話の一貫性を維持したりする能力が制限される可能性があります。
モデル別のコンテキストウィンドウサイズの一覧については、モデル比較表をご覧ください。
ファインチューニング
ファインチューニングは、事前学習済みの言語モデルを追加データを使用してさらに学習させるプロセスです。これにより、モデルはファインチューニングデータセットのパターンと特徴を表現し模倣し始めます。Claudeは単なる言語モデルではありません。すでに役立つアシスタントとしてファインチューニングされています。現在、当社のAPIではファインチューニングを提供していませんが、このオプションについて興味がある場合は、Anthropicの担当者にお問い合わせください。ファインチューニングは、言語モデルを特定のドメイン、タスク、または文章スタイルに適応させるのに役立ちますが、ファインチューニングデータとモデルのパフォーマンスやバイアスへの潜在的な影響を慎重に検討する必要があります。
HHH
これら3つのHは、Claudeが社会に有益であることを確保するためのAnthropicの目標を表しています:
- helpful(役立つ)AIは、その能力の限りを尽くしてタスクを実行したり質問に答えたりし、関連性のある有用な情報を提供します。
- honest(正直な)AIは、正確な情報を提供し、幻覚や作り話をしません。適切な場合には、その限界と不確実性を認めます。
- harmless(無害な)AIは、攻撃的または差別的にならず、危険または非倫理的な行為の支援を求められた場合、丁寧に拒否してその理由を説明します。
レイテンシー
生成AIと大規模言語モデルの文脈におけるレイテンシーとは、モデルが与えられたプロンプトに応答するまでの時間を指します。これは、プロンプトを送信してから生成された出力を受け取るまでの遅延です。レイテンシーが低いということは応答時間が速いことを示し、これはリアルタイムアプリケーション、チャットボット、インタラクティブな体験にとって重要です。レイテンシーに影響を与える要因には、モデルサイズ、ハードウェア性能、ネットワーク状態、プロンプトと生成される応答の複雑さなどがあります。
LLM
大規模言語モデル(LLM)は、多くのパラメータを持ち、驚くほど多様な有用なタスクを実行できるAI言語モデルです。これらのモデルは膨大なテキストデータで学習され、人間のようなテキストを生成し、質問に答え、情報を要約するなどができます。Claudeは大規模言語モデルをベースとした会話アシスタントで、より役立ち、正直で、無害になるようにファインチューニングされ、RLHFを使用して学習されています。
事前学習
事前学習は、言語モデルを大規模な未ラベルのテキストコーパスで学習させる初期プロセスです。Claudeの場合、自己回帰言語モデル(Claudeの基礎となるモデルのような)は、文書内の前後の文脈を与えられて次の単語を予測するように事前学習されます。これらの事前学習済みモデルは本来、質問に答えたり指示に従ったりするのが得意ではなく、望ましい振る舞いを引き出すには、プロンプトエンジニアリングの深いスキルが必要になることがよくあります。ファインチューニングとRLHFは、これらの事前学習済みモデルを改良して、幅広いタスクにより有用なものにするために使用されます。
RAG(検索拡張生成)
検索拡張生成(RAG)は、生成されるテキストの正確性と関連性を向上させ、モデルの応答をより良く証拠に基づいたものにするために、情報検索と言語モデル生成を組み合わせる技術です。RAGでは、言語モデルは外部の知識ベースまたはドキュメントセットで拡張され、これがコンテキストウィンドウに渡されます。データはモデルにクエリが送信されたときに実行時に取得されますが、モデル自体が必ずしもデータを取得するわけではありません(ただし、ツール使用と検索機能を使用すれば可能です)。テキストを生成する際、まず入力プロンプトに基づいて知識ベースから関連情報を取得し、元のクエリと共にモデルに渡す必要があります。モデルはこの情報を使用して生成する出力を導きます。これにより、モデルは学習データを超えた情報にアクセスして利用することができ、暗記への依存を減らし、生成されるテキストの事実的な正確性を向上させます。RAGは、最新の情報、ドメイン固有の知識、または情報源の明示的な引用が必要なタスクに特に有用です。ただし、RAGの効果は、外部知識ベースの質と関連性、および実行時に取得される知識に依存します。
RLHF
人間のフィードバックによる強化学習(RLHF)は、事前学習済みの言語モデルを人間の好みに一致する方法で振る舞うように学習させる技術です。これには、モデルがより効果的に指示に従ったり、よりチャットボットのように振る舞ったりするのを助けることが含まれます。人間のフィードバックは、2つ以上のサンプルテキストのランク付けで構成され、強化学習プロセスはより高いランクのものに似た出力を好むようにモデルを促します。Claudeはより役立つアシスタントになるようにRLHFを使用して学習されています。詳細については、Anthropicの論文をお読みください。
温度
温度は、テキスト生成中のモデルの予測のランダム性を制御するパラメータです。より高い温度では、より創造的で多様な出力が生成され、フレーズの複数のバリエーションや、フィクションの場合は回答のバリエーションも可能になります。より低い温度では、最も確率の高いフレーズと回答に固執する、より保守的で決定論的な出力が得られます。温度を調整することで、最も可能性の高い予測のみを選択するのではなく、珍しい、一般的でない、または驚くべき単語の選択とシーケンスを言語モデルに探索させることができます。
TTFT(最初のトークンまでの時間)
最初のトークンまでの時間(TTFT)は、言語モデルがプロンプトを受け取ってから出力の最初のトークンを生成するまでの時間を測定するパフォーマンス指標です。これはモデルの応答性の重要な指標であり、ユーザーが素早い初期フィードバックを期待するインタラクティブなアプリケーション、チャットボット、リアルタイムシステムで特に重要です。TTFTが低いということは、モデルがより速く応答の生成を開始できることを示し、よりシームレスで魅力的なユーザー体験を提供します。TTFTに影響を与える要因には、モデルサイズ、ハードウェア性能、ネットワーク状態、プロンプトの複雑さなどがあります。
トークン
トークンは言語モデルの最小の個別単位で、単語、部分語、文字、さらにはバイト(Unicodeの場合)に対応することができます。Claudeの場合、1トークンは約3.5英文字に相当しますが、使用される言語によって正確な数は異なる場合があります。トークンは通常、言語モデルと「テキスト」レベルでやり取りする際には隠されていますが、言語モデルの正確な入力と出力を調べる際に関連してきます。Claudeにテキストが提供されると、テキスト(一連の文字で構成される)はモデルが処理するための一連のトークンにエンコードされます。より大きなトークンは推論と事前学習中のデータ効率を可能にし(可能な場合に利用される)、より小さなトークンはモデルが珍しいまたは初めて見る単語を処理できるようにします。トークン化方法の選択は、モデルのパフォーマンス、語彙サイズ、語彙外の単語を処理する能力に影響を与える可能性があります。