本指南說明如何在 Claude 中處理圖像,包括最佳實踐、程式碼範例以及需要注意的限制。


如何使用視覺能力

您可以透過以下方式使用 Claude 的視覺能力:

  • claude.ai。像上傳檔案一樣上傳圖像,或直接將圖像拖放到聊天視窗中。
  • Console Workbench。如果您選擇支援圖像的模型(僅限 Claude 3 模型),每個使用者訊息區塊的右上角都會出現添加圖像的按鈕。
  • API 請求。請參閱本指南中的範例。

上傳前須知

基本知識和限制

您可以在單個請求中包含多個圖像(claude.ai 最多 20 個,API 請求最多 100 個)。Claude 在形成回應時會分析所有提供的圖像。這對於比較或對比圖像很有幫助。

如果您提交的圖像大於 8000x8000 像素,將被拒絕。如果您在一個 API 請求中提交超過 20 張圖像,此限制為 2000x2000 像素。

評估圖像大小

為獲得最佳效能,如果圖像太大,我們建議在上傳前調整其大小。如果您的圖像長邊超過 1568 像素,或圖像超過約 1,600 個標記,系統會先按比例縮小,直到符合大小限制。

如果您的輸入圖像太大需要調整大小,這會增加首字元輸出時間的延遲,而不會給您帶來任何額外的模型效能。任何邊緣小於 200 像素的非常小的圖像可能會降低效能。

為了改善首字元輸出時間,我們建議將圖像調整為不超過 1.15 百萬像素(且兩個維度都在 1568 像素以內)。

以下是我們的 API 接受的不同長寬比的最大圖像尺寸表,這些圖像不會被調整大小。使用 Claude 3.5 Sonnet 模型時,這些圖像使用約 1,600 個標記,每千張圖像約 $4.80。

長寬比圖像大小
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

計算圖像成本

您在請求中包含的每張圖像都會計入您的標記使用量。要計算大約成本,請將估計的圖像標記數乘以您使用的模型每標記價格

如果您的圖像不需要調整大小,您可以通過以下算法估算使用的標記數:標記數 = (寬度像素 * 高度像素)/750

以下是基於 Claude 3.5 Sonnet 每百萬輸入標記 $3 的價格,在我們 API 大小限制內的不同圖像大小的大約標記數和成本示例:

圖像大小標記數每張圖像成本每千張圖像成本
200x200 px(0.04 百萬像素)~54~$0.00016~$0.16
1000x1000 px(1 百萬像素)~1334~$0.004~$4.00
1092x1092 px(1.19 百萬像素)~1590~$0.0048~$4.80

確保圖像品質

向 Claude 提供圖像時,請記住以下幾點以獲得最佳效果:

  • 圖像格式:使用支援的圖像格式:JPEG、PNG、GIF 或 WebP。
  • 圖像清晰度:確保圖像清晰,不要太模糊或像素化。
  • 文字:如果圖像包含重要文字,請確保文字清晰可讀且不要太小。避免為了放大文字而裁剪掉關鍵的視覺上下文。

提示詞範例

許多適用於與 Claude 進行基於文字互動的提示技巧也可以應用於基於圖像的提示。

這些範例展示了涉及圖像的最佳實踐提示結構。

就像文件查詢位置一樣,圖像放在文字之前時 Claude 的效果最好。圖像放在文字之後或與文字交錯仍然表現良好,但如果您的使用場景允許,我們建議採用圖像在前、文字在後的結構。

關於提示詞範例

這些提示詞範例使用 Anthropic Python SDK,並使用 httpx 庫從維基百科獲取圖像。您可以使用任何圖像來源。

範例提示使用這些變數。

Python
import base64
import httpx

image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.standard_b64encode(httpx.get(image2_url).content).decode("utf-8")

在進行 API 請求時,您可以將圖像作為 base64 編碼的圖像在 image 內容區塊中提供給 Claude。以下是一個簡單的 Python 範例,展示如何在 Messages API 請求中包含 base64 編碼的圖像:

Python
import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "描述這張圖像。"
                }
            ],
        }
    ],
)
print(message)

查看 Messages API 範例以獲取更多程式碼範例和參數詳情。


限制

雖然 Claude 的圖像理解能力處於前沿水平,但仍有一些需要注意的限制:

  • 人物識別:Claude 不能用於識別(即命名)圖像中的人物,並且會拒絕這樣做。
  • 準確性:Claude 在解釋低品質、旋轉或小於 200 像素的非常小的圖像時可能會產生幻覺或出錯。
  • 空間推理:Claude 的空間推理能力有限。它可能在需要精確定位或佈局的任務中遇到困難,比如讀取類比時鐘面或描述棋子的確切位置。
  • 計數:Claude 可以給出圖像中物體的大致數量,但可能並不總是精確,尤其是在有大量小物體時。
  • AI 生成的圖像:Claude 無法判斷圖像是否由 AI 生成,如果被問到可能會回答錯誤。不要依賴它來檢測假圖或合成圖像。
  • 不當內容:Claude 不會處理違反我們可接受使用政策的不當或露骨圖像。
  • 醫療應用:雖然 Claude 可以分析一般醫療圖像,但它並非設計用於解釋複雜的診斷掃描,如 CT 或 MRI。Claude 的輸出不應被視為專業醫療建議或診斷的替代品。

對於高風險用例,請始終仔細審查和驗證 Claude 的圖像解釋。在沒有人工監督的情況下,不要使用 Claude 進行需要完美精確度或敏感圖像分析的任務。


常見問題


深入了解視覺能力

準備好開始使用 Claude 構建圖像應用了嗎?以下是一些有用的資源:

如果您有任何其他問題,請隨時聯繫我們的支援團隊。您也可以加入我們的開發者社群,與其他創作者聯繫並獲得 Anthropic 專家的幫助。