視覚機能
Claude 3ファミリーのモデルには、Claudeが画像を理解・分析できる新しい視覚機能が搭載され、マルチモーダルなインタラクションの可能性が広がります。
このガイドでは、Claudeでの画像の扱い方、ベストプラクティス、コード例、および注意すべき制限事項について説明します。
視覚機能の使用方法
Claudeの視覚機能は以下の方法で利用できます:
- claude.ai。ファイルと同じように画像をアップロードするか、チャットウィンドウに画像を直接ドラッグ&ドロップします。
- Console Workbench。画像を受け付けるモデル(Claude 3モデルのみ)を選択すると、すべてのユーザーメッセージブロックの右上に画像追加ボタンが表示されます。
- APIリクエスト。このガイドの例を参照してください。
アップロードの前に
基本事項と制限
1回のリクエストで複数の画像を含めることができます(claude.aiでは最大20枚、APIリクエストでは最大100枚)。Claudeは提供されたすべての画像を分析して応答を生成します。これは画像の比較や対照に役立ちます。
8000x8000 pxより大きい画像はアップロードが拒否されます。1回のAPIリクエストで20枚以上の画像を送信する場合、この制限は2000x2000 pxとなります。
画像サイズの評価
最適なパフォーマンスを得るために、画像が大きすぎる場合はアップロード前にリサイズすることをお勧めします。画像の長辺が1568ピクセルを超える場合、または画像が約1,600トークンを超える場合、アスペクト比を維持したままサイズ制限内に収まるようにまず縮小されます。
入力画像が大きすぎてリサイズが必要な場合、モデルのパフォーマンスが向上することなく最初のトークンまでの時間が増加します。いずれかの辺が200ピクセル未満の非常に小さい画像はパフォーマンスが低下する可能性があります。
最初のトークンまでの時間を改善するために、画像を1.15メガピクセル以下(かつ両方の寸法で1568ピクセル以内)にリサイズすることをお勧めします。
以下は、一般的なアスペクト比に対してAPIが受け付ける最大画像サイズの表です。これらの画像はリサイズされません。Claude 3.7 Sonnetモデルでは、これらの画像は約1,600トークンを使用し、1,000枚あたり約4.80ドルのコストがかかります。
アスペクト比 | 画像サイズ |
---|---|
1:1 | 1092x1092 px |
3:4 | 951x1268 px |
2:3 | 896x1344 px |
9:16 | 819x1456 px |
1:2 | 784x1568 px |
画像コストの計算
Claudeへのリクエストに含める各画像は、トークン使用量にカウントされます。おおよそのコストを計算するには、画像のおおよそのトークン数に使用するモデルのトークンあたりの価格を掛けます。
画像がリサイズを必要としない場合、以下のアルゴリズムでトークン数を推定できます:トークン数 = (幅px * 高さpx)/750
以下は、APIのサイズ制限内の異なる画像サイズに対する、Claude 3.7 Sonnetの100万入力トークンあたり3ドルの価格に基づくおおよそのトークン化とコストの例です:
画像サイズ | トークン数 | 画像あたりのコスト | 1,000枚あたりのコスト |
---|---|---|---|
200x200 px(0.04メガピクセル) | 約54 | 約$0.00016 | 約$0.16 |
1000x1000 px(1メガピクセル) | 約1334 | 約$0.004 | 約$4.00 |
1092x1092 px(1.19メガピクセル) | 約1590 | 約$0.0048 | 約$4.80 |
画像品質の確保
Claudeに画像を提供する際は、最良の結果を得るために以下の点に注意してください:
- 画像フォーマット:サポートされている画像フォーマット(JPEG、PNG、GIF、WebP)を使用してください。
- 画像の鮮明さ:画像がぼやけていたりピクセル化していたりしないよう、鮮明であることを確認してください。
- テキスト:画像に重要なテキストが含まれている場合は、判読可能で小さすぎないことを確認してください。テキストを拡大するために重要な視覚的コンテキストを切り取ることは避けてください。
プロンプトの例
テキストベースのClaudeとのインタラクションで効果的なプロンプトエンジニアリング技術の多くは、画像ベースのプロンプトにも適用できます。
これらの例は、画像を含むプロンプトの構造のベストプラクティスを示しています。
ドキュメントクエリの配置と同様に、Claudeは画像がテキストよりも前にある場合に最も効果を発揮します。テキストの後や途中に配置された画像でもうまく機能しますが、ユースケースで可能な場合は画像を先に配置することをお勧めします。
プロンプト例について
以下の例は、様々なプログラミング言語とアプローチを使用してClaudeの視覚機能を利用する方法を示しています。Claudeに画像を提供する方法は2つあります:
image
コンテンツブロックでbase64エンコードされた画像として- オンラインでホストされている画像へのURL参照として
base64の例のプロンプトでは、以下の変数を使用します:
以下は、base64エンコードされた画像とURL参照を使用してMessages APIリクエストに画像を含める例です:
base64エンコードされた画像の例
URLベースの画像の例
詳細なコード例とパラメータについては、Messages APIの例を参照してください。
制限事項
Claudeの画像理解能力は最先端ですが、以下のような制限事項があることを認識しておく必要があります:
- 人物の識別:Claudeは使用できません画像内の人物を識別(つまり、名前を特定)することはできず、そのような要求は拒否します。
- 精度:Claudeは、品質の低い画像、回転した画像、または200ピクセル未満の非常に小さい画像を解釈する際に、誤った解釈をしたり間違いを起こしたりする可能性があります。
- 空間認識:Claudeの空間認識能力には限界があります。アナログ時計の文字盤を読んだり、チェスの駒の正確な位置を説明したりするような、正確な位置関係や配置を必要とするタスクでは苦労する可能性があります。
- カウント:Claudeは画像内のオブジェクトのおおよその数を示すことはできますが、特に小さなオブジェクトが多数ある場合、常に正確な数を示せるとは限りません。
- AI生成画像:Claudeは画像がAIによって生成されたものかどうかを判断できず、質問された場合に誤った回答をする可能性があります。偽画像や合成画像の検出にClaudeを頼らないでください。
- 不適切なコンテンツ:Claudeは、利用規約に違反する不適切または露骨な画像を処理しません。
- 医療応用:Claudeは一般的な医療画像を分析できますが、CTやMRIなどの複雑な診断スキャンを解釈するようには設計されていません。Claudeの出力を専門的な医療アドバイスや診断の代用とみなすべきではありません。
特にリスクの高いユースケースでは、Claudeの画像解釈を常に慎重に確認し検証してください。人間による監督なしに、完全な精度や機密性の高い画像分析を必要とするタスクにClaudeを使用しないでください。
よくある質問
視覚機能をさらに深く理解する
Claudeを使用して画像関連の開発を始める準備はできましたか?以下の役立つリソースをご覧ください:
- マルチモーダルクックブック:このクックブックには、画像の使用開始とベストプラクティス技術に関するヒントが含まれており、画像を使用して最高品質のパフォーマンスを確保する方法を説明しています。チャートやグラフの解釈と分析やフォームからのコンテンツ抽出などのタスクを実行するために、Claudeに画像を効果的にプロンプトする方法をご覧ください。
- APIリファレンス:画像を含むAPIコールの例を含む、Messages APIのドキュメントをご覧ください。
その他のご質問がありましたら、サポートチームまでお気軽にお問い合わせください。また、開発者コミュニティに参加して、他の開発者とつながり、Anthropicの専門家からサポートを受けることもできます。
Was this page helpful?