コンテキストウィンドウ

「コンテキストウィンドウ」とは、言語モデルが新しいテキストを生成する際に参照できるテキストの量を指します。これは言語モデルが訓練された大規模なデータコーパスとは異なり、モデルの「作業メモリ」を表します。より大きなコンテキストウィンドウにより、モデルはより複雑で長いプロンプトを理解し応答することができますが、小さなコンテキストウィンドウでは、モデルが長いプロンプトを処理したり、長時間の会話で一貫性を維持したりする能力が制限される可能性があります。

詳細については、コンテキストウィンドウを理解するためのガイドをご覧ください。

ファインチューニング

ファインチューニングは、事前訓練された言語モデルを追加データを使用してさらに訓練するプロセスです。これにより、モデルはファインチューニングデータセットのパターンや特性を表現し模倣し始めます。Claudeは単なる言語モデルではなく、すでに役立つアシスタントとしてファインチューニングされています。現在、当社のAPIではファインチューニングを提供していませんが、このオプションについて詳しく知りたい場合は、Anthropicの担当者にお問い合わせください。ファインチューニングは、言語モデルを特定のドメイン、タスク、または文体に適応させるのに役立ちますが、ファインチューニングデータとモデルのパフォーマンスやバイアスへの潜在的な影響を慎重に検討する必要があります。

HHH

これら3つのHは、Claudeが社会に有益であることを確保するためのAnthropicの目標を表しています:

  • 役立つ(helpful) AIは、その能力の限りを尽くしてタスクを実行したり質問に答えたりし、関連性のある有用な情報を提供します。
  • 正直な(honest) AIは、正確な情報を提供し、幻覚や作り話をしません。適切な場合には、自身の限界や不確実性を認めます。
  • 無害な(harmless) AIは、攻撃的または差別的ではなく、危険または非倫理的な行為を支援するよう求められた場合、AIは丁寧に拒否し、なぜ応じられないかを説明するべきです。

レイテンシ

生成AIや大規模言語モデルのコンテキストにおけるレイテンシとは、モデルが与えられたプロンプトに応答するのにかかる時間を指します。これはプロンプトを送信してから生成された出力を受け取るまでの遅延です。レイテンシが低いほど応答時間が速くなり、これはリアルタイムアプリケーション、チャットボット、インタラクティブな体験にとって重要です。レイテンシに影響を与える要因には、モデルのサイズ、ハードウェア能力、ネットワーク状態、プロンプトと生成される応答の複雑さなどがあります。

LLM

大規模言語モデル(LLM)は、多くのパラメータを持ち、驚くほど様々な有用なタスクを実行できるAI言語モデルです。これらのモデルは膨大な量のテキストデータで訓練され、人間のようなテキストを生成したり、質問に答えたり、情報を要約したりなどができます。Claudeは大規模言語モデルに基づく会話アシスタントで、より役立ち、正直で、無害になるようにファインチューニングされ、RLHFを使用して訓練されています。

MCP(Model Context Protocol)

Model Context Protocol(MCP)は、アプリケーションがLLMにコンテキストを提供する方法を標準化するオープンプロトコルです。AIアプリケーション用のUSB-Cポートのように、MCPはAIモデルを異なるデータソースやツールに接続するための統一された方法を提供します。MCPにより、AIシステムはインタラクション間で一貫したコンテキストを維持し、標準化された方法で外部リソースにアクセスできます。詳細については、MCPのドキュメントをご覧ください。

MCPコネクタ

MCPコネクタは、APIユーザーがMCPクライアントを構築せずにMessages APIから直接MCPサーバーに接続できるようにする機能です。これにより、Anthropic APIを通じてMCP互換のツールやサービスとのシームレスな統合が可能になります。MCPコネクタはツール呼び出しなどの機能をサポートしており、パブリックベータ版で利用可能です。詳細については、MCPコネクタのドキュメントをご覧ください。

事前訓練

事前訓練は、大規模な未ラベル付きテキストコーパスで言語モデルを訓練する初期プロセスです。Claudeの場合、自己回帰言語モデル(Claudeの基盤となるモデルなど)は、ドキュメント内の前のテキストのコンテキストを考慮して次の単語を予測するように事前訓練されています。これらの事前訓練されたモデルは本質的に質問に答えたり指示に従ったりするのが得意ではなく、望ましい動作を引き出すためにはプロンプトエンジニアリングの深いスキルが必要なことがよくあります。ファインチューニングとRLHFは、これらの事前訓練されたモデルを洗練し、幅広いタスクにより有用にするために使用されます。

RAG(検索拡張生成)

検索拡張生成(RAG)は、生成されるテキストの正確性と関連性を向上させ、モデルの応答をより確かな証拠に基づかせるために、情報検索と言語モデル生成を組み合わせる技術です。RAGでは、言語モデルは外部の知識ベースまたはコンテキストウィンドウに渡される一連の文書で拡張されます。データはクエリがモデルに送信されたときに実行時に取得されますが、モデル自体が必ずしもデータを取得するわけではありません(ただし、ツール使用と検索機能を使用すれば可能です)。テキストを生成する際、まず入力プロンプトに基づいて知識ベースから関連情報を取得し、元のクエリと一緒にモデルに渡す必要があります。モデルはこの情報を使用して生成する出力を導きます。これにより、モデルは訓練データを超えた情報にアクセスして利用することができ、記憶への依存を減らし、生成されるテキストの事実的正確性を向上させます。RAGは、最新の情報、ドメイン固有の知識、または情報源の明示的な引用を必要とするタスクに特に有用です。ただし、RAGの有効性は、外部知識ベースの品質と関連性、および実行時に取得される知識に依存します。

RLHF

人間のフィードバックからの強化学習(RLHF)は、事前訓練された言語モデルを人間の好みと一致する方法で行動するように訓練するために使用される技術です。これには、モデルがより効果的に指示に従ったり、よりチャットボットのように行動したりするのを助けることが含まれます。人間のフィードバックは、2つ以上のサンプルテキストのセットをランク付けすることで構成され、強化学習プロセスはモデルに、より高くランク付けされたものに似た出力を好むよう促します。Claudeはより役立つアシスタントになるためにRLHFを使用して訓練されています。詳細については、Anthropicの論文をお読みください。

温度

温度は、テキスト生成中のモデルの予測のランダム性を制御するパラメータです。温度が高いほど、より創造的で多様な出力が生まれ、表現に複数のバリエーションが可能になり、フィクションの場合は回答にもバリエーションが生まれます。温度が低いほど、最も確率の高い表現や回答に固執する、より保守的で決定論的な出力になります。温度を調整することで、言語モデルが最も可能性の高い予測だけを選択するのではなく、珍しい、一般的でない、または驚くべき単語の選択や配列を探索するよう促すことができます。

TTFT(最初のトークンまでの時間)

最初のトークンまでの時間(TTFT)は、言語モデルがプロンプトを受け取ってから出力の最初のトークンを生成するまでにかかる時間を測定するパフォーマンス指標です。これはモデルの応答性の重要な指標であり、ユーザーが迅速な初期フィードバックを期待するインタラクティブなアプリケーション、チャットボット、リアルタイムシステムに特に関連しています。TTFTが低いほど、モデルがより速く応答の生成を開始できることを示し、よりシームレスで魅力的なユーザーエクスペリエンスを提供します。TTFTに影響を与える要因には、モデルのサイズ、ハードウェア能力、ネットワーク状態、プロンプトの複雑さなどがあります。

トークン

トークンは言語モデルの最小の個別単位であり、単語、部分語、文字、さらにはバイト(Unicodeの場合)に対応することがあります。Claudeの場合、トークンは約3.5英語文字に相当しますが、使用される言語によって正確な数は異なる場合があります。トークンは通常、「テキスト」レベルで言語モデルと対話する際には隠されていますが、言語モデルの正確な入力と出力を調べる際に関連してきます。Claudeに評価するテキストが提供されると、テキスト(一連の文字で構成される)はモデルが処理するための一連のトークンにエンコードされます。より大きなトークンは推論と事前訓練中のデータ効率を可能にし(可能な場合に利用される)、より小さなトークンはモデルが珍しいまたは見たことのない単語を処理できるようにします。トークン化方法の選択は、モデルのパフォーマンス、語彙サイズ、および語彙外の単語を処理する能力に影響を与える可能性があります。