コンテキストウィンドウ

「コンテキストウィンドウ」とは、言語モデルが新しいテキストを生成する際に参照できる過去のテキストの量を指します。これは、言語モデルが学習した大規模なデータコーパスとは異なり、モデルの「ワーキングメモリ」を表しています。コンテキストウィンドウが大きいほど、モデルはより複雑で長いプロンプトを理解し、応答することができます。一方、コンテキストウィンドウが小さいと、モデルが長いプロンプトを処理したり、長い会話で一貫性を維持したりする能力が制限される可能性があります。

モデル別のコンテキストウィンドウサイズの一覧は、モデル比較の表を参照してください。

ファインチューニング

ファインチューニングとは、事前学習済みの言語モデルに追加のデータを使用してさらに学習させるプロセスです。これにより、モデルはファインチューニングデータセットのパターンや特性を表現し、模倣し始めます。Claudeは単なる言語モデルではなく、役立つアシスタントになるようにファインチューニングされています。現在、AnthropicのAPIではファインチューニングを提供していませんが、この機能に興味がある場合は、Anthropicの担当者にお問い合わせください。ファインチューニングは、言語モデルを特定のドメイン、タスク、または文体に適応させるのに役立ちますが、ファインチューニングデータとモデルのパフォーマンスやバイアスへの潜在的な影響を慎重に検討する必要があります。

HHH

この3つのHは、Claudeが社会に有益であることを保証するためのAnthropicの目標を表しています。

  • Helpful(役立つ) AIは、与えられたタスクを遂行したり、質問に可能な限り最善の方法で答えたりしようとし、関連性が高く有用な情報を提供します。
  • Honest(正直な) AIは、正確な情報を提供し、幻覚を見たり、でっち上げたりしません。適切な場合は、自らの限界や不確実性を認めます。
  • Harmless(無害な) AIは、攻撃的または差別的ではありません。危険または非倫理的な行為への助力を求められた場合、AIは丁重に拒否し、その理由を説明します。

レイテンシ

生成AIや大規模言語モデルの文脈におけるレイテンシとは、与えられたプロンプトに対してモデルが応答するまでの時間を指します。プロンプトを送信してから生成された出力を受け取るまでの遅延のことです。レイテンシが低いほど応答時間が速くなり、リアルタイムアプリケーション、チャットボット、インタラクティブな体験には不可欠です。レイテンシに影響を与える要因には、モデルのサイズ、ハードウェアの性能、ネットワーク状況、プロンプトと生成された応答の複雑さなどがあります。

LLM

大規模言語モデル(LLM)は、多数のパラメータを持つAI言語モデルで、驚くほど有用なさまざまなタスクを実行できます。これらのモデルは膨大な量のテキストデータで学習されており、人間のようなテキストを生成したり、質問に答えたり、情報を要約したりできます。Claudeは、大規模言語モデルに基づく会話型アシスタントで、より役立ち、正直で、無害になるようにファインチューニングとRLHFを使用して学習されています。

事前学習

事前学習とは、大規模な未ラベル付きテキストコーパスを使用して言語モデルを最初に学習するプロセスです。Claudeの場合、自己回帰型言語モデル(Claudeの基盤となるモデルなど)は、文書内の前の文脈を考慮して次の単語を予測するように事前学習されています。これらの事前学習済みモデルは、本質的に質問に答えたり指示に従ったりするのが得意ではなく、多くの場合、望ましい動作を引き出すためにプロンプトエンジニアリングに深い技術が必要です。ファインチューニングとRLHFは、これらの事前学習済みモデルを洗練させ、幅広いタスクでより有用にするために使用されます。

RAG(検索拡張生成)

検索拡張生成(RAG)は、情報検索と言語モデル生成を組み合わせて、生成されたテキストの精度と関連性を向上させ、モデルの応答をより良いエビデンスに基づいたものにする手法です。RAGでは、言語モデルは、コンテキストウィンドウに渡される外部ナレッジベースまたは一連の文書で拡張されます。データは、クエリがモデルに送信されたときにランタイムで取得されますが、モデル自体がデータを取得する必要はありません(ただし、ツールの使用と検索機能を使用することはできます)。テキストを生成する際、入力プロンプトに基づいて関連情報を最初にナレッジベースから取得し、元のクエリとともにモデルに渡す必要があります。モデルはこの情報を使用して、生成する出力を導きます。これにより、モデルは学習データを超えた情報にアクセスして活用できるようになり、暗記への依存が減り、生成されたテキストの事実の正確性が向上します。RAGは、最新の情報、ドメイン固有の知識、または情報源の明示的な引用を必要とするタスクに特に役立ちます。ただし、RAGの有効性は、外部ナレッジベースの品質と関連性、およびランタイムで取得される知識に依存します。

RLHF

人間のフィードバックからの強化学習(RLHF)は、事前学習済みの言語モデルを人間の好みに合致するように振る舞うように学習させるために使用される手法です。これには、モデルがより効果的に指示に従ったり、チャットボットのようにふるまったりするのに役立つことが含まれます。人間のフィードバックは、2つ以上の例示テキストのセットをランク付けすることで構成され、強化学習のプロセスは、モデルがより高くランク付けされた出力に類似した出力を好むように促します。Claudeは、RLHFを使用して、より役立つアシスタントになるように学習されています。詳細については、Anthropicのこのトピックに関する論文をお読みください。

温度

温度は、テキスト生成中のモデルの予測のランダム性を制御するパラメータです。温度が高いほど、より創造的で多様な出力が得られ、表現の複数のバリエーションや、フィクションの場合は答えのバリエーションも可能になります。温度が低いほど、最も可能性の高い表現や答えに固執する、より保守的で決定論的な出力になります。温度を調整することで、ユーザーは言語モデルに、最も可能性の高い予測のみを選択するのではなく、まれで一般的でない、または驚くべき単語の選択と配列を探索するよう促すことができます。Claude Slackbotは、応答を生成する際に0以外の温度を使用しているため、一貫性と関連性を維持しながら、ある程度の答えのバリエーションが可能になります。

TTFT(最初のトークンまでの時間)

最初のトークンまでの時間(TTFT)は、プロンプトを受け取った後、言語モデルが出力の最初のトークンを生成するまでの時間を測定するパフォーマンス指標です。これは、モデルの応答性を示す重要な指標であり、ユーザーが迅速な初期フィードバックを期待するインタラクティブなアプリケーション、チャットボット、リアルタイムシステムにとって特に重要です。TTFTが低いほど、モデルは応答の生成をより速く開始でき、よりシームレスで魅力的なユーザーエクスペリエンスを提供できます。TTFTに影響を与える要因には、モデルのサイズ、ハードウェアの性能、ネットワーク状況、プロンプトの複雑さなどがあります。

トークン

トークンは言語モデルの最小の個別単位であり、単語、サブワード、文字、さらにはバイト(Unicodeの場合)に対応します。Claudeの場合、1トークンは約3.5の英語の文字に相当しますが、使用される言語によって正確な数は異なる場合があります。トークンは通常、「テキスト」レベルで言語モデルとやり取りする際には隠されていますが、言語モデルの正確な入力と出力を調べる際には関連性があります。Claudeにテキストが提供されると、そのテキスト(一連の文字で構成される)は、モデルが処理するための一連のトークンにエンコードされます。より大きなトークンは、推論と事前学習中のデータ効率を可能にし(可能な場合に利用される)、より小さなトークンは、モデルが一般的でない単語や見たことのない単語を処理できるようにします。トークン化手法の選択は、モデルのパフォーマンス、語彙サイズ、および語彙外の単語を処理する能力に影響を与える可能性があります。