評価ツールの使用方法
Anthropic Consoleには、様々なシナリオでプロンプトをテストできる評価ツールが搭載されています。
評価機能へのアクセス
評価ツールを使い始めるには:
- Anthropic Consoleを開き、プロンプトエディタに移動します。
- プロンプトを作成した後、画面上部の「評価」タブを探します。
プロンプトには、二重波括弧構文を使用した動的変数を少なくとも1-2個含めてください:{{variable}}。これは評価テストセットを作成するために必要です。
プロンプトの生成
ConsoleにはClaude 3.5 Sonnetを活用したプロンプトジェネレーターが組み込まれています:
「プロンプトを生成」をクリック
「プロンプトを生成」ヘルパーツールをクリックすると、タスク情報を入力できるモーダルが開きます。
タスクを説明
希望するタスク(例:「受信したカスタマーサポートリクエストの振り分け」)を、必要な詳細度で説明します。より多くのコンテキストを含めることで、Claudeはあなたの特定のニーズに合わせてプロンプトを生成できます。
プロンプトを生成
下部にあるオレンジ色の「プロンプトを生成」ボタンをクリックすると、Claudeが高品質なプロンプトを生成します。その後、Consoleの評価画面を使用してこれらのプロンプトをさらに改善できます。
この機能により、評価に適切な変数構文を含むプロンプトを簡単に作成できます。
テストケースの作成
評価画面にアクセスすると、テストケースを作成するためのいくつかのオプションがあります:
- 左下の「+ 行を追加」ボタンをクリックして、手動でケースを追加します。
- 「テストケースを生成」機能を使用して、Claudeに自動的にテストケースを生成させます。
- CSVファイルからテストケースをインポートします。
「テストケースを生成」機能を使用するには:
「テストケースを生成」をクリック
ボタンをクリックするたびに、Claudeが1行ずつテストケースを生成します。
生成ロジックの編集(オプション)
「テストケースを生成」ボタンの右側にある矢印ドロップダウンをクリックし、表示される変数ウィンドウの上部にある「生成ロジックを表示」をクリックすることで、テストケース生成ロジックを編集することもできます。初期の生成ロジックを表示するには、このウィンドウの右上にある「生成」をクリックする必要があるかもしれません。
これを編集することで、Claudeが生成するテストケースをより正確で具体的にカスタマイズできます。
以下は、複数のテストケースが入力された評価画面の例です:
元のプロンプトテキストを更新した場合、新しいプロンプトに対して評価スイート全体を再実行し、変更がすべてのテストケースのパフォーマンスにどのように影響するかを確認できます。
効果的な評価のためのヒント
Consoleの「プロンプトを生成」ヘルパーツールを使用して、評価に適切な変数構文を含むプロンプトを素早く作成できます。
結果の理解と比較
評価ツールには、プロンプトを改善するためのいくつかの機能があります:
- 並列比較:2つ以上のプロンプトの出力を比較して、変更の影響を素早く確認できます。
- 品質評価:5段階で応答品質を評価し、プロンプトごとの応答品質の改善を追跡できます。
- プロンプトのバージョン管理:プロンプトの新しいバージョンを作成し、テストスイートを再実行して、素早く反復して結果を改善できます。
テストケース全体の結果を確認し、異なるプロンプトバージョンを比較することで、パターンを特定し、プロンプトをより効率的に調整できます。
今すぐプロンプトの評価を開始して、ClaudeでよりロバストなAIアプリケーションを構築しましょう!