Claudeを使用したコンテンツモデレーションの実装例については、コンテンツモデレーションクックブックをご覧ください。

このガイドは、アプリケーション内のユーザー生成コンテンツのモデレーションに焦点を当てています。Claudeとのやり取りのモデレーションに関するガイダンスをお探しの場合は、ガードレールガイドをご参照ください。

Claudeを使用した開発を始める前に

Claudeをコンテンツモデレーションに使用するかどうかを決定する

以下は、従来のMLやルールベースのアプローチではなく、Claudeのようなモデレーション用のLLMを使用すべき主な指標です:

Anthropicは、すべてのClaudeモデルを正直で、役立ち、無害になるように訓練しています。これにより、使用されるプロンプトに関係なく、特に危険とみなされるコンテンツ(利用規約に沿って)をClaudeがモデレートする可能性があります。例えば、ユーザーに露骨な性的コンテンツの投稿を許可したい成人向けウェブサイトでは、プロンプトで露骨な性的コンテンツをモデレートしないよう指定しても、Claudeが依然として露骨なコンテンツにモデレーションフラグを付ける可能性があります。モデレーションソリューションを構築する前に、当社の利用規約を確認することをお勧めします。

モデレート対象のコンテンツ例を生成する

コンテンツモデレーションソリューションを開発する前に、まずフラグを付けるべきコンテンツとフラグを付けるべきでないコンテンツの例を作成します。コンテンツモデレーションシステムが効果的に処理することが難しい可能性のあるエッジケースや課題のあるシナリオを必ず含めてください。その後、例を確認してモデレーションカテゴリの明確なリストを作成します。 例えば、ソーシャルメディアプラットフォームが生成する例には以下のようなものが含まれます:

allowed_user_comments = [
    'この映画は素晴らしかった。主演俳優は本当に殺してた!',
    '月曜日が嫌い。',
    '今は金に投資するのに良いタイミングだ!'
]

disallowed_user_comments = [
    'この投稿を今すぐ削除しろ。さもないと隠れろ。お前と家族を追いかけてやる。',
    '5G携帯電話から離れろ!!5Gで人々を操っているんだ。',
    'おめでとう!1,000ドルのギフトカードが当選しました。ここをクリックして賞品を受け取ってください!'
]

# コンテンツモデレーションをテストするためのサンプルユーザーコメント
user_comments = allowed_user_comments + disallowed_user_comments

# コンテンツモデレーションで安全でないとみなされるカテゴリのリスト
unsafe_categories = [
    '児童搾取',
    '陰謀論',
    '憎悪',
    '無差別兵器', 
    '知的財産',
    '非暴力犯罪', 
    'プライバシー',
    '自傷行為',
    '性犯罪',
    '性的コンテンツ',
    '専門的アドバイス',
    '暴力犯罪'
]

これらの例を効果的にモデレートするには、言語の微妙な理解が必要です。コメント「この映画は素晴らしかった。主演俳優は本当に殺してた!」では、コンテンツモデレーションシステムは「殺してた」が実際の暴力を示すものではなく、比喩であることを認識する必要があります。逆に、「この投稿を今すぐ削除しろ。さもないと隠れろ。お前と家族を追いかけてやる。」というコメントは、暴力への明示的な言及がないにもかかわらず、コンテンツモデレーションシステムによってフラグを付けられるべきです。

unsafe_categoriesリストは、特定のニーズに合わせてカスタマイズできます。例えば、未成年者がウェブサイトでコンテンツを作成することを防ぎたい場合は、「未成年の投稿」をリストに追加できます。


Claudeを使用してコンテンツをモデレートする方法

適切なClaudeモデルを選択する

モデルを選択する際は、データのサイズを考慮することが重要です。コストが懸念される場合、Claude 3 Haikuのような小規模なモデルは、コスト効率の面で優れた選択肢です。以下は、月間10億件の投稿を受け取るソーシャルメディアプラットフォームのテキストモデレーションコストの見積もりです:

  • コンテンツサイズ

    • 月間投稿数:10億
    • 投稿あたりの文字数:100
    • 総文字数:1,000億
  • 推定トークン数

    • 入力トークン:286億(1トークンあたり3.5文字と仮定)
    • フラグ付きメッセージの割合:3%
    • フラグ付きメッセージあたりの出力トークン:50
    • 総出力トークン:15億
  • Claude 3 Haiku推定コスト

    • 入力トークンコスト:2,860 MTok * $0.25/MTok = $715
    • 出力トークンコスト:1,500 MTok * $1.25/MTok = $1,875
    • 月間コスト:$715 + $1,875 = $2,590
  • Claude 3.7 Sonnet推定コスト

    • 入力トークンコスト:2,860 MTok * $3.00/MTok = $8,580
    • 出力トークンコスト:1,500 MTok * $15.00/MTok = $22,500
    • 月間コスト:$8,580 + $22,500 = $31,080
実際のコストはこれらの見積もりと異なる場合があります。これらの見積もりはバッチ処理のセクションで強調されているプロンプトに基づいています。レスポンスからexplanationフィールドを削除することで、出力トークンをさらに削減できます。

強力なプロンプトを構築する

Claudeをコンテンツモデレーションに使用するには、Claudeがアプリケーションのモデレーション要件を理解する必要があります。モデレーションニーズを定義できるプロンプトの作成から始めましょう:

import anthropic
import json

# Anthropicクライアントを初期化
client = anthropic.Anthropic()

def moderate_message(message, unsafe_categories):
    # 安全でないカテゴリのリストを文字列に変換し、各カテゴリを新しい行に配置
    unsafe_category_str = '\n'.join(unsafe_categories)
    
    # メッセージと安全でないカテゴリを含むClaudeのプロンプトを構築
    assessment_prompt = f"""
    以下のメッセージが、下記の安全でないカテゴリに基づいて
    モデレーションを必要とするかどうかを判断してください。
    
    メッセージ:
    <message>{message}</message>

    安全でないカテゴリ:
    <categories>
    {unsafe_category_str}
    </categories>

    以下の形式のJSONオブジェクトのみで応答してください:
    {{
    "violation": <メッセージをモデレートすべきかどうかを示すブール値>,
    "categories": [違反カテゴリのカンマ区切りリスト],
    "explanation": [オプション。違反がある場合のみ含める。]
    }}"""

    # コンテンツモデレーションのリクエストをClaudeに送信
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # コストを抑えるためにHaikuモデルを使用
        max_tokens=200,
        temperature=0,   # 一貫性を高めるために温度を0に設定
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # ClaudeのJSON応答を解析
    assessment = json.loads(response.content[0].text)
    
    # 評価から違反状態を抽出
    contains_violation = assessment['violation']
    
    # 違反がある場合はカテゴリと説明を取得、ない場合は空のデフォルトを使用
    violated_categories = assessment.get('categories', []) if contains_violation else []
    explanation = assessment.get('explanation') if contains_violation else None
    
    return contains_violation, violated_categories, explanation

# 各コメントを処理して結果を表示
for comment in user_comments:
    print(f"\nコメント:{comment}")
    violation, violated_categories, explanation = moderate_message(comment, unsafe_categories)
    
    if violation:
        print(f"違反カテゴリ:{', '.join(violated_categories)}")
        print(f"説明:{explanation}")
    else:
        print("問題は検出されませんでした。")

この例では、moderate_message関数に評価するメッセージと定義した安全でないカテゴリを含む評価プロンプトが含まれています。プロンプトは、定義した安全でないカテゴリに基づいて、メッセージをモデレートすべきかどうかをClaudeに評価するよう指示します。

モデルの評価は、違反があるかどうかを判断するために解析されます。違反がある場合、Claudeは違反したカテゴリのリストと、メッセージが安全でない理由の説明も返します。

プロンプトを評価する

コンテンツモデレーションは分類問題です。したがって、分類クックブックで説明されている同じ手法を使用して、コンテンツモデレーションシステムの精度を判断できます。

追加の考慮事項として、コンテンツモデレーションを二値分類問題として扱うのではなく、様々なリスクレベルを表す複数のカテゴリを作成することもできます。複数のリスクレベルを作成することで、モデレーションの積極性を調整できます。例えば、高リスクと判断されたユーザークエリを自動的にブロックし、中リスクのクエリが多いユーザーを人的レビュー用にフラグ付けすることができます。

import anthropic
import json

# Anthropicクライアントを初期化
client = anthropic.Anthropic()

def assess_risk_level(message, unsafe_categories):
    # 安全でないカテゴリのリストを文字列に変換し、各カテゴリを新しい行に配置
    unsafe_category_str = '\n'.join(unsafe_categories)
    
    # メッセージ、安全でないカテゴリ、リスクレベルの定義を含むClaudeのプロンプトを構築
    assessment_prompt = f"""
    以下のメッセージのリスクレベルが、下記の安全でないカテゴリに基づいて
    モデレーションを必要とするかどうかを評価してください。
    
メッセージ:
<message>{message}</message>

安全でないカテゴリ:
<categories>
{unsafe_category_str}
</categories>

定義された安全でないカテゴリに基づいて、ユーザーのメッセージをモデレートすべきという
確信度に基づいてリスクレベルを割り当ててください:

0 - リスクなし
1 - 低リスク
2 - 中リスク
3 - 高リスク

以下の形式のJSONオブジェクトのみで応答してください:
{{
  "risk_level": <リスクレベルを示す数値>,
  "categories": [違反カテゴリのカンマ区切りリスト],
  "explanation": <オプション。リスクレベルが0より大きい場合のみ含める>
}}"""

    # リスク評価のリクエストをClaudeに送信
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # コストを抑えるためにHaikuモデルを使用
        max_tokens=200,
        temperature=0,   # 一貫性を高めるために温度を0に設定
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # ClaudeのJSON応答を解析
    assessment = json.loads(response.content[0].text)
    
    # 評価からリスクレベル、違反カテゴリ、説明を抽出
    risk_level = assessment["risk_level"]
    violated_categories = assessment["categories"]
    explanation = assessment.get("explanation")
    
    return risk_level, violated_categories, explanation

# 各コメントを処理して結果を表示
for comment in user_comments:
    print(f"\nコメント:{comment}")
    risk_level, violated_categories, explanation = assess_risk_level(comment, unsafe_categories)
    
    print(f"リスクレベル:{risk_level}")
    if violated_categories:
        print(f"違反カテゴリ:{', '.join(violated_categories)}")
    if explanation:
        print(f"説明:{explanation}")

このコードは、Claudeを使用してメッセージのリスクレベルを評価するassess_risk_level関数を実装しています。この関数は、メッセージと安全でないカテゴリのリストを入力として受け取ります。

関数内で、評価するメッセージ、安全でないカテゴリ、リスクレベルの評価に関する具体的な指示を含むプロンプトがClaudeのために生成されます。プロンプトは、リスクレベル、違反カテゴリ、オプションの説明を含むJSONオブジェクトで応答するようClaudeに指示します。

このアプローチにより、リスクレベルを割り当てることで柔軟なコンテンツモデレーションが可能になります。評価されたリスクレベルに基づいてコンテンツフィルタリングを自動化したり、人的レビュー用にコメントにフラグを付けたりするより大きなシステムにシームレスに統合できます。例えば、このコードを実行すると、コメント「この投稿を今すぐ削除しろ。さもないと隠れろ。お前と家族を追いかけてやる。」は危険な脅威であるため高リスクとして識別されます。一方、コメント「5G携帯電話から離れろ!!5Gで人々を操っているんだ。」は中リスクとして分類されます。

プロンプトをデプロイする

ソリューションの品質に自信が持てたら、本番環境にデプロイする時です。本番環境でコンテンツモデレーションを使用する際のベストプラクティスは以下の通りです:

  1. ユーザーに明確なフィードバックを提供する: コンテンツモデレーションによってユーザー入力がブロックされたり、応答にフラグが付けられたりした場合、メッセージがフラグを付けられた理由と適切な言い換え方法を理解できるよう、有益で建設的なフィードバックを提供します。上記のコード例では、これはClaude応答のexplanationタグを通じて行われています。

  2. モデレートされたコンテンツを分析する: モデレーションシステムによってフラグを付けられたコンテンツの種類を追跡し、傾向と改善が必要な可能性のある領域を特定します。

  3. 継続的に評価・改善する: 精度と再現率の追跡などの指標を使用して、コンテンツモデレーションシステムのパフォーマンスを定期的に評価します。このデータを使用して、モデレーションプロンプト、キーワード、評価基準を反復的に改善します。


パフォーマンスを改善する

複雑なシナリオでは、標準的なプロンプトエンジニアリング技術を超えて、パフォーマンスを改善するための追加の戦略を検討すると役立つ場合があります。以下は高度な戦略です:

トピックを定義し、例を提供する

プロンプトに安全でないカテゴリをリストするだけでなく、各カテゴリの定義と関連するフレーズを提供することで、さらなる改善が可能です。

import anthropic
import json

# Anthropicクライアントを初期化
client = anthropic.Anthropic()

# コンテンツモデレーションで安全でないとみなされるカテゴリとその定義の辞書
unsafe_category_definitions = {
    '児童搾取': '児童ヌードを描写する、または児童の性的虐待を可能にする、奨励する、言い訳する、または描写するコンテンツ。',
    '陰謀論': """出来事、状況、または個人に関する根拠のない、虚偽の、または誤解を招く理論を促進または支持するコンテンツで、
        害を引き起こしたり、事実や機関への公共の信頼を損なう可能性があるもの。""",
    '憎悪': """保護された特徴(人種、肌の色、民族、出身国、障害、宗教的所属、カースト、性的指向、性別、性自認、重病)に基づいて
        人々に対して憎悪的なコンテンツ、または否定的なステレオタイプを永続化するコンテンツ。""",
    '無差別兵器': '大量破壊兵器の作成を可能にするコンテンツ。', 
    '知的財産': '第三者の知的財産権を侵害するコンテンツ。',
    '非暴力犯罪': '非暴力犯罪の実行を可能にする、奨励する、または言い訳するコンテンツ。', 
    'プライバシー': '個人に関する機密の個人情報を含むコンテンツ。',
    '自傷行為': '意図的な自傷行為を可能にする、奨励する、または言い訳するコンテンツ。',
    '性犯罪': '性犯罪の実行を可能にする、奨励する、または言い訳するコンテンツ。',
    '性的コンテンツ': '性行為の官能的な描写または露骨な描写を含むコンテンツ。',
    '専門的アドバイス': """財務、医療、または法的アドバイスを含むコンテンツ。
        財務アドバイスには、投資、株式、債券、または財務計画に関するガイダンスが含まれます。""",
    '暴力犯罪': '暴力犯罪の実行を可能にする、奨励する、または言い訳するコンテンツ。', 
}


def moderate_message_with_definitions(message, unsafe_category_definitions):
    # 各カテゴリとその定義を新しい行に配置して安全でないカテゴリ文字列をフォーマット
    unsafe_category_str = '\n'.join(f'{category}: {definition}' 
        for category, definition in unsafe_category_definitions.items()
    )
    
    # メッセージと安全でないカテゴリを含むClaudeのプロンプトを構築
    assessment_prompt = f"""以下のメッセージが、下記の安全でないカテゴリに基づいてモデレーションを必要とするかどうかを判断してください。

メッセージ:
<message>{message}</message>

安全でないカテゴリとその定義:
<categories>
{unsafe_category_str}
</categories>

すべての安全でないカテゴリとその定義を覚えておくことが重要です。

以下の形式のJSONオブジェクトのみで応答してください:
{{
  "violation": <メッセージをモデレートすべきかどうかを示すブール値>,
  "categories": [違反カテゴリのカンマ区切りリスト],
  "explanation": [オプション。違反がある場合のみ含める。]
}}"""

    # コンテンツモデレーションのリクエストをClaudeに送信
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # コストを抑えるためにHaikuモデルを使用
        max_tokens=200,
        temperature=0,   # 一貫性を高めるために温度を0に設定
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # ClaudeのJSON応答を解析
    assessment = json.loads(response.content[0].text)
    
    # 評価から違反状態を抽出
    contains_violation = assessment['violation']
    
    # 違反がある場合はカテゴリと説明を取得、ない場合は空のデフォルトを使用
    violated_categories = assessment.get('categories', []) if contains_violation else []
    explanation = assessment.get('explanation') if contains_violation else None
    
    return contains_violation, violated_categories, explanation


# 各コメントを処理して結果を表示
for comment in user_comments:
    print(f"\nコメント:{comment}")
    violation, violated_categories, explanation = moderate_message_with_definitions(comment, unsafe_category_definitions)
    
    if violation:
        print(f"違反カテゴリ:{', '.join(violated_categories)}")
        print(f"説明:{explanation}")
    else:
        print("問題は検出されませんでした。")

moderate_message_with_definitions関数は、以前のmoderate_message関数を拡張し、各安全でないカテゴリに詳細な定義を関連付けることができるようにしています。これは、元の関数のunsafe_categoriesリストをunsafe_category_definitions辞書に置き換えることでコードで実現されています。この辞書は各安全でないカテゴリをその定義にマッピングします。カテゴリ名とその定義の両方がプロンプトに含まれます。

注目すべきは、専門的アドバイスカテゴリの定義が、禁止すべき財務アドバイスの種類を具体的に指定するようになったことです。その結果、以前はmoderate_message評価を通過していたコメント「今は金に投資するのに良いタイミングだ!」が、現在は違反をトリガーします。

バッチ処理を検討する

リアルタイムのモデレーションが不要な状況でコストを削減するには、メッセージをバッチでモデレートすることを検討してください。プロンプトのコンテキスト内に複数のメッセージを含め、どのメッセージをモデレートすべきかをClaudeに評価するよう依頼します。

import anthropic
import json

# Anthropicクライアントを初期化
client = anthropic.Anthropic()

def batch_moderate_messages(messages, unsafe_categories):
    # 安全でないカテゴリのリストを文字列に変換し、各カテゴリを新しい行に配置
    unsafe_category_str = '\n'.join(unsafe_categories)
    
    # 各メッセージをXMLライクなタグで囲み、IDを付与してメッセージ文字列をフォーマット
    messages_str = '\n'.join([f'<message id={idx}>{msg}</message>' for idx, msg in enumerate(messages)])
    
    # メッセージと安全でないカテゴリを含むClaudeのプロンプトを構築
    assessment_prompt = f"""下記の安全でないカテゴリに基づいて、モデレートすべきメッセージを判断してください。

メッセージ:
<messages>
{messages_str}
</messages>

安全でないカテゴリとその定義:
<categories>
{unsafe_category_str}
</categories>

以下の形式のJSONオブジェクトのみで応答してください:
{{
  "violations": [
    {{
      "id": <メッセージid>,
      "categories": [違反カテゴリのリスト],
      "explanation": <違反がある理由の説明>
    }},
    ...
  ]
}}

重要な注意事項:
- すべてのメッセージについて違反を分析することを忘れないでください。
- 合理的に適用される違反を任意の数選択してください。"""

    # コンテンツモデレーションのリクエストをClaudeに送信
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # コストを抑えるためにHaikuモデルを使用
        max_tokens=2048,  # バッチを処理するために最大トークン数を増やす
        temperature=0,    # 一貫性を高めるために温度を0に設定
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # ClaudeのJSON応答を解析
    assessment = json.loads(response.content[0].text)
    return assessment


# コメントのバッチを処理して応答を取得
response_obj = batch_moderate_messages(user_comments, unsafe_categories)

# 検出された各違反の結果を表示
for violation in response_obj['violations']:
    print(f"""コメント:{user_comments[violation['id']]}
違反カテゴリ:{', '.join(violation['categories'])}
説明:{violation['explanation']}
""")

この例では、batch_moderate_messages関数が単一のClaude API呼び出しでメッセージのバッチ全体のモデレーションを処理します。 関数内で、評価するメッセージのリスト、定義された安全でないコンテンツカテゴリ、およびそれらの説明を含むプロンプトが作成されます。プロンプトは、違反を含むすべてのメッセージをリストするJSONオブジェクトを返すようClaudeに指示します。応答の各メッセージは、入力リスト内のメッセージの位置に対応するidによって識別されます。 特定のニーズに最適なバッチサイズを見つけるには、いくつかの実験が必要かもしれないことに注意してください。より大きなバッチサイズはコストを下げることができますが、品質がわずかに低下する可能性もあります。また、より長い応答に対応するために、Claude API呼び出しのmax_tokensパラメータを増やす必要があるかもしれません。選択したモデルが出力できる最大トークン数の詳細については、モデル比較ページを参照してください。