このガイドでは、Claudeを使用して分類器を構築するための最適なアプローチを決定するプロセスと、ユースケースの探索からバックエンド統合までの、Claude分類器のエンドツーエンドの展開の基本について説明します。

Claudeを使用した分類の実装例については、分類クックブックをご覧ください。

いつClaudeを分類に使用するか

分類タスクに従来のMLアプローチではなくLLMを使用することを検討すべきタイミングはいつですか?ここではいくつかの重要な指標を示します:

  1. ルールベースのクラス:クラスが例ではなく条件によって定義されている場合は、Claudeを使用します。Claudeは基本的なルールを理解できます。
  2. 進化するクラス:Claudeは、新しいクラスや変化するクラスが出現し、境界が変化する新しいドメインや変化するドメインに適応します。
  3. 非構造化入力:Claudeは、さまざまな長さの大量の非構造化テキスト入力を処理できます。
  4. ラベル付きの例が限られている:few-shot学習機能により、Claudeは限られたラベル付きトレーニングデータから正確に学習します。
  5. 推論要件:Claudeは、意味の理解、文脈、および高度な推論を必要とする分類タスクに優れています。

分類のユースケースを確立する

以下は、業界別にClaudeが優れている一般的な分類ユースケースの完全ではないリストです。


分類にClaudeを実装する

3つの主要なモデル決定要因は、インテリジェンス、レイテンシー、価格です。

分類では、通常、速度と効率が高いため、Claude 3 Haikuのような小さなモデルが理想的です。ただし、専門知識や複雑な推論が必要な分類タスクでは、SonnetまたはOpusの方が適している場合があります。Opus、Sonnet、Haikuの比較については、こちらをご覧ください。

評価を使用して、Claudeモデルが本番環境に展開するのに十分なパフォーマンスを発揮しているかどうかを判断します。

1. 強力な入力プロンプトを作成する

Claudeはすぐに使えるハイレベルのベースラインパフォーマンスを提供しますが、強力な入力プロンプトは最良の結果を得るのに役立ちます。

特定のユースケースに適応できる一般的な分類器の場合は、以下のスタータープロンプトをコピーします。

また、プロンプトライブラリでは、次のような分類ユースケースのプロンプトを含む、さまざまなプロンプトを提供しています。

感情分析

ツイートの背後にあるトーンと感情を検出します。ユーザーの感情、意見、反応をリアルタイムで理解します。

カスタマーレビューの分類

フィードバックを事前に指定されたタグに分類します。製品の洞察とカスタマーサービスの対応を合理化します。

2. テストケースを開発する

分類評価を実行するには、実行するテストケースが必要です。テストケースの開発に関するガイドをご覧ください。

3. 評価を実行する

評価指標

分類タスクでのClaudeのパフォーマンスを評価する際に考慮すべき成功指標には、次のようなものがあります。

基準説明
精度モデルの出力が正解と完全に一致するか、タスクの要件に従って入力を正しく分類します。これは通常、(正しい予測の数)/(全体の予測の数)として計算されます。
F1スコアモデルの出力が適合率と再現率のバランスを最適化します。
一貫性モデルの出力が類似の入力に対する予測と一致するか、論理的なパターンに従います。
構造モデルの出力が期待されるフォーマットまたは構造に従い、解析と解釈が容易になります。たとえば、多くの分類器はJSON形式で出力することが期待されています。
速度モデルがタスクに許容される時間制限またはレイテンシーのしきい値内で応答を提供します。
バイアスと公平性人に関するデータを分類する場合、モデルが性別、民族、またはその他の特性に基づくバイアスを示さないことが重要です。そのようなバイアスは誤分類につながります。

分類器をデプロイする

分類にClaudeを使用する方法のコード例については、Anthropic Cookbookの分類ガイドを参照してください。