提供したPDFに含まれるテキスト、画像、グラフ、表についてClaudeに質問できるようになりました。使用例:

  • 財務報告書の分析とグラフ/表の理解
  • 法的文書からの重要情報の抽出
  • 文書の翻訳支援
  • 文書情報の構造化フォーマットへの変換

始める前に

PDF要件の確認

Claudeは標準的なPDFで動作します。ただし、PDFサポートを使用する際は、リクエストサイズが以下の要件を満たしていることを確認してください:

要件制限
最大リクエストサイズ32MB
リクエストあたりの最大ページ数100
フォーマット標準PDF(パスワード/暗号化なし)

これらの制限は、PDFと共に送信される他のコンテンツを含むリクエスト全体に適用されることにご注意ください。

PDFサポートはClaudeのビジョン機能に依存しているため、他のビジョンタスクと同じ制限事項と考慮事項が適用されます。

サポートされているプラットフォームとモデル

PDFサポートは現在、直接APIアクセスを通じて両方のClaude 3.5 Sonnetモデル(claude-3-5-sonnet-20241022claude-3-5-sonnet-20240620)で利用可能です。この機能は近日中にAmazon BedrockとGoogle Vertex AIでもサポートされる予定です。


ClaudeでPDFを処理する

最初のPDFリクエストを送信する

Messages APIを使用した簡単な例から始めましょう:

PDFサポートの仕組み

PDFをClaudeに送信すると、以下の手順が実行されます:

1

システムが文書の内容を抽出します。

  • システムが文書の各ページを画像に変換します。
  • 各ページのテキストが抽出され、各ページの画像と共に提供されます。
2

Claudeはテキストと画像の両方を分析して文書をより良く理解します。

  • 文書は分析のためにテキストと画像の組み合わせとして提供されます。
  • これにより、ユーザーはグラフ、図表、その他の非テキストコンテンツなど、PDFの視覚的要素に関する洞察を求めることができます。
3

Claudeは、関連する場合はPDFの内容を参照しながら応答します。

Claudeは応答する際にテキストと視覚的なコンテンツの両方を参照できます。以下を統合することでパフォーマンスをさらに向上させることができます:

  • プロンプトキャッシング:繰り返し分析のパフォーマンス向上のため。
  • バッチ処理:大量の文書処理のため。
  • ツール使用:ツール入力として使用する特定の情報を文書から抽出するため。

コストを見積もる

PDFファイルのトークン数は、文書から抽出された総テキスト量とページ数に依存します:

  • テキストトークンのコスト:各ページは通常、コンテンツの密度に応じて1ページあたり1,500〜3,000トークンを使用します。追加のPDF料金なしで標準APIの価格が適用されます。
  • 画像トークンのコスト:各ページは画像に変換されるため、同じ画像ベースのコスト計算が適用されます。

特定のPDFのコストを見積もるにはトークンカウントを使用できます。


PDF処理の最適化

パフォーマンスの向上

最適な結果を得るために以下のベストプラクティスに従ってください:

  • リクエストでPDFをテキストの前に配置する
  • 標準フォントを使用する
  • テキストが明確で読みやすいことを確認する
  • ページを適切な上向きの向きに回転させる
  • プロンプトでは論理的なページ番号(PDFビューアからの)を使用する
  • 必要に応じて大きなPDFを分割する
  • 繰り返し分析にはプロンプトキャッシングを有効にする

実装のスケーリング

大量処理のために、以下のアプローチを検討してください:

プロンプトキャッシングを使用する

繰り返しのクエリのパフォーマンスを向上させるためにPDFをキャッシュします:

文書のバッチ処理

大量のワークフローにはMessage Batches APIを使用します:

次のステップ