使用 Claude 构建
PDF 支持
使用 Claude 3.5 Sonnet 处理 PDF。从文档中提取文本、分析图表和理解视觉内容。
现在您可以向 Claude 询问您提供的 PDF 中的任何文本、图片、图表和表格。一些示例用例:
- 分析财务报告并理解图表/表格
- 从法律文件中提取关键信息
- 文档翻译辅助
- 将文档信息转换为结构化格式
开始之前
检查 PDF 要求
Claude 可以处理任何标准 PDF。但是,在使用 PDF 支持时,您应确保您的请求大小符合以下要求:
要求 | 限制 |
---|---|
最大请求大小 | 32MB |
每个请求的最大页数 | 100 |
格式 | 标准 PDF(无密码/加密) |
请注意,这两个限制都是针对整个请求负载,包括与 PDF 一起发送的任何其他内容。
由于 PDF 支持依赖于 Claude 的视觉能力,因此它受制于与其他视觉任务相同的限制和考虑因素。
支持的平台和模型
PDF 支持目前可通过直接 API 访问和 Google Vertex AI 在两个 Claude 3.5 Sonnet 模型(claude-3-5-sonnet-20241022
、claude-3-5-sonnet-20240620
)上使用。此功能很快将在 Amazon Bedrock 上得到支持。
使用 Claude 处理 PDF
发送您的第一个 PDF 请求
让我们从使用 Messages API 的一个简单示例开始:
PDF 支持的工作原理
当您向 Claude 发送 PDF 时,会发生以下步骤:
1
系统提取文档内容。
- 系统将文档的每一页转换为图像。
- 从每一页提取文本并与每页的图像一起提供。
2
Claude 分析文本和图像以更好地理解文档。
- 文档以文本和图像的组合形式提供进行分析。
- 这使用户可以询问 PDF 的视觉元素的见解,如图表、图解和其他非文本内容。
3
Claude 响应,在相关时引用 PDF 的内容。
Claude 可以在响应时引用文本和视觉内容。您可以通过以下方式进一步提高性能:
- 提示缓存:提高重复分析的性能。
- 批处理:用于高容量文档处理。
- 工具使用:从文档中提取特定信息用作工具输入。
估算您的成本
PDF 文件的令牌数量取决于从文档中提取的总文本以及页数:
- 文本令牌成本:每页通常使用 1,500-3,000 个令牌,具体取决于内容密度。适用标准 API 定价,无额外 PDF 费用。
- 图像令牌成本:由于每页都转换为图像,因此应用相同的基于图像的成本计算。
您可以使用令牌计数来估算特定 PDF 的成本。
优化 PDF 处理
提高性能
遵循这些最佳实践以获得最佳结果:
- 在请求中将 PDF 放在文本之前
- 使用标准字体
- 确保文本清晰可读
- 将页面旋转至正确的竖直方向
- 在提示中使用逻辑页码(来自 PDF 查看器)
- 需要时将大型 PDF 分成块
- 对重复分析启用提示缓存
扩展您的实施
对于高容量处理,请考虑以下方法:
使用提示缓存
缓存 PDF 以提高重复查询的性能:
处理文档批次
使用 Message Batches API 进行高容量工作流: