請訪問我們的內容審核指南,查看使用 Claude 實施內容審核的示例。

本指南主要關注於審核您應用程式中的使用者生成內容。如果您正在尋找有關審核與 Claude 互動的指導,請參考我們的防護指南

使用 Claude 前的準備工作

決定是否使用 Claude 進行內容審核

以下是一些關鍵指標,表明您應該使用像 Claude 這樣的 LLM,而不是傳統的機器學習或基於規則的方法進行內容審核:

Anthropic 已經訓練所有 Claude 模型保持誠實、有幫助和無害。這可能導致 Claude 會審核被認為特別危險的內容(符合我們的可接受使用政策),無論使用什麼提示。例如,如果一個成人網站想允許用戶發布露骨的性內容,即使他們在提示中指定不要審核露骨的性內容,他們可能會發現 Claude 仍然會標記露骨內容需要審核。我們建議在建立審核解決方案之前先查看我們的可接受使用政策。

生成需要審核的內容示例

在開發內容審核解決方案之前,首先創建應該被標記的內容和不應該被標記的內容的示例。確保包括可能難以被內容審核系統有效處理的邊緣案例和具有挑戰性的場景。之後,審查您的示例以創建明確定義的審核類別列表。 例如,社交媒體平台生成的示例可能包括以下內容:

allowed_user_comments = [
    'This movie was great, I really enjoyed it. The main actor really killed it!',
    'I hate Mondays.',
    'It is a great time to invest in gold!'
]

disallowed_user_comments = [
    'Delete this post now or you better hide. I am coming after you and your family.',
    'Stay away from the 5G cellphones!! They are using 5G to control you.',
    'Congratulations! You have won a $1,000 gift card. Click here to claim your prize!'
]

# Sample user comments to test the content moderation
user_comments = allowed_user_comments + disallowed_user_comments

# List of categories considered unsafe for content moderation
unsafe_categories = [
    'Child Exploitation',
    'Conspiracy Theories',
    'Hate',
    'Indiscriminate Weapons', 
    'Intellectual Property',
    'Non-Violent Crimes', 
    'Privacy',
    'Self-Harm',
    'Sex Crimes',
    'Sexual Content',
    'Specialized Advice',
    'Violent Crimes'
]

有效審核這些示例需要對語言有細微的理解。在評論「This movie was great, I really enjoyed it. The main actor really killed it!」中,內容審核系統需要認識到「killed it」是一個比喻,而不是表示實際的暴力。相反,儘管沒有明確提到暴力,評論「Delete this post now or you better hide. I am coming after you and your family.」應該被內容審核系統標記。

unsafe_categories 列表可以根據您的具體需求進行自定義。例如,如果您希望防止未成年人在您的網站上創建內容,您可以將「Underage Posting」添加到列表中。


如何使用 Claude 審核內容

選擇合適的 Claude 模型

在選擇模型時,考慮數據的大小很重要。如果成本是一個考慮因素,像 Claude 3 Haiku 這樣的較小模型由於其成本效益而成為絕佳選擇。以下是對每月接收十億帖子的社交媒體平台進行文本審核的成本估算:

  • 內容大小

    • 每月帖子數:10億
    • 每個帖子的字符數:100
    • 總字符數:1000億
  • 估計的標記數

    • 輸入標記:286億(假設每3.5個字符1個標記)
    • 被標記的消息百分比:3%
    • 每個被標記消息的輸出標記:50
    • 總輸出標記:15億
  • Claude 3 Haiku 估計成本

    • 輸入標記成本:2,860 MTok * 0.25/MTok=0.25/MTok = 715
    • 輸出標記成本:1,500 MTok * 1.25/MTok=1.25/MTok = 1,875
    • 月度成本:715+715 + 1,875 = $2,590
  • Claude 3.5 Sonnet 估計成本

    • 輸入標記成本:2,860 MTok * 3.00/MTok=3.00/MTok = 8,580
    • 輸出標記成本:1,500 MTok * 15.00/MTok=15.00/MTok = 22,500
    • 月度成本:8,580+8,580 + 22,500 = $31,080
實際成本可能與這些估算有所不同。這些估算基於批處理部分突出顯示的提示。通過從響應中移除 explanation 字段,可以進一步減少輸出標記。

[Rest of translation continues in next part due to length limits…]