內容審核是維護數位應用程式中安全、尊重和高效環境的關鍵方面。在本指南中,我們將討論如何使用Claude在您的數位應用程式中審核內容。
訪問我們的內容審核指南,查看使用Claude實現內容審核的示例。
您希望實現成本效益高且快速的實施
您希望同時具備語義理解和快速決策能力
您需要一致的政策決策
您的審核政策可能會隨著時間而改變或發展
您需要為審核決策提供可解釋的理由
您需要多語言支持,而無需維護單獨的模型
您需要多模態支持
這部電影很棒,我真的很喜歡。主演真的太厲害了!
中,內容審核系統需要認識到”太厲害了”是一個比喻,而不是表示實際暴力的指示。相反,儘管沒有明確提及暴力,評論立即刪除這篇文章,否則你最好躲起來。我要來找你和你的家人。
應該被內容審核系統標記。
unsafe_categories
列表可以根據您的特定需求進行自定義。例如,如果您希望防止未成年人在您的網站上創建內容,您可以將”未成年人發帖”添加到列表中。
explanation
字段,可以進一步減少輸出令牌。moderate_message
函數包含一個評估提示,其中包括不安全內容類別和我們希望評估的消息。提示要求Claude根據我們定義的不安全類別評估消息是否應該被審核。
然後解析模型的評估以確定是否存在違規。如果存在違規,Claude還會返回違反的類別列表,以及解釋為什麼該消息不安全的原因。
assess_risk_level
函數,該函數使用Claude評估消息的風險級別。該函數接受消息和不安全類別列表作為輸入。
在函數內部,為Claude生成一個提示,包括要評估的消息、不安全類別和評估風險級別的具體指示。提示指示Claude回應一個JSON對象,其中包括風險級別、違反的類別和可選的解釋。
這種方法通過分配風險級別實現了靈活的內容審核。它可以無縫集成到更大的系統中,根據評估的風險級別自動過濾內容或標記評論以進行人工審查。例如,在執行此代碼時,評論立即刪除這篇文章,否則你最好躲起來。我要來找你和你的家人。
由於其危險威脅而被識別為高風險。相反,評論遠離5G手機!!他們正在使用5G來控制你。
被歸類為中等風險。
explanation
標籤完成的。
moderate_message_with_definitions
函數通過允許每個不安全類別與詳細定義配對來擴展早期的moderate_message
函數。這在代碼中通過將原始函數中的unsafe_categories
列表替換為unsafe_category_definitions
字典來實現。這個字典將每個不安全類別映射到其相應的定義。類別名稱和它們的定義都包含在提示中。
值得注意的是,專業建議
類別的定義現在指定了應該禁止的財務建議類型。因此,評論現在是投資黃金的好時機!
,之前通過了moderate_message
評估,現在觸發了違規。
batch_moderate_messages
函數通過單個Claude API調用處理整批消息的審核。
在函數內部,創建一個提示,其中包括要評估的消息列表、定義的不安全內容類別及其描述。提示指示Claude返回一個JSON對象,列出所有包含違規的消息。響應中的每條消息都由其id識別,該id對應於消息在輸入列表中的位置。
請記住,為您的特定需求找到最佳批量大小可能需要一些實驗。雖然較大的批量大小可以降低成本,但它們也可能導致質量略有下降。此外,您可能需要增加Claude API調用中的max_tokens
參數以適應更長的響應。有關您選擇的模型可以輸出的最大令牌數的詳細信息,請參考模型比較頁面。