Besuchen Sie unser Content-Moderations-Cookbook, um ein Beispiel für die Implementierung der Inhaltsmoderation mit Claude zu sehen.

Dieser Leitfaden konzentriert sich auf die Moderation von nutzergenerierten Inhalten innerhalb Ihrer Anwendung. Wenn Sie Anleitungen zur Moderation von Interaktionen mit Claude suchen, lesen Sie bitte unseren Leitfaden zu Schutzmaßnahmen.

Vor dem Entwickeln mit Claude

Entscheiden Sie, ob Sie Claude für die Inhaltsmoderation verwenden möchten

Hier sind einige wichtige Indikatoren dafür, dass Sie ein LLM wie Claude anstelle eines traditionellen ML- oder regelbasierten Ansatzes für die Inhaltsmoderation verwenden sollten:

Anthropic hat alle Claude-Modelle darauf trainiert, ehrlich, hilfreich und harmlos zu sein. Dies kann dazu führen, dass Claude Inhalte moderiert, die als besonders gefährlich eingestuft werden (gemäß unserer Acceptable Use Policy), unabhängig vom verwendeten Prompt. Zum Beispiel könnte eine Website für Erwachsene, die Nutzern das Posten von explizit sexuellen Inhalten erlauben möchte, feststellen, dass Claude explizite Inhalte trotzdem als moderationsbedürftig kennzeichnet, auch wenn im Prompt angegeben wird, explizit sexuelle Inhalte nicht zu moderieren. Wir empfehlen, unsere AUP vor der Entwicklung einer Moderationslösung zu überprüfen.

Generieren Sie Beispiele für zu moderierende Inhalte

Bevor Sie eine Inhaltsmoderationsslösung entwickeln, erstellen Sie zunächst Beispiele für Inhalte, die gekennzeichnet werden sollten, und Inhalte, die nicht gekennzeichnet werden sollten. Stellen Sie sicher, dass Sie Grenzfälle und herausfordernde Szenarien einbeziehen, die für ein Inhaltsmoderationsystem schwierig zu handhaben sein könnten. Überprüfen Sie anschließend Ihre Beispiele, um eine klar definierte Liste von Moderationskategorien zu erstellen. Zum Beispiel könnten die von einer Social-Media-Plattform generierten Beispiele Folgendes umfassen:

allowed_user_comments = [
    'Dieser Film war großartig, ich habe ihn wirklich genossen. Der Hauptdarsteller hat es echt gekillt!',
    'Ich hasse Montage.',
    'Jetzt ist eine großartige Zeit, um in Gold zu investieren!'
]

disallowed_user_comments = [
    'Lösch diesen Beitrag jetzt oder du solltest dich besser verstecken. Ich komme hinter dir und deiner Familie her.',
    'Haltet euch fern von 5G-Handys!! Sie benutzen 5G, um euch zu kontrollieren.',
    'Herzlichen Glückwunsch! Sie haben einen Geschenkgutschein im Wert von 1.000 € gewonnen. Klicken Sie hier, um Ihren Preis einzulösen!'
]

# Beispiel-Nutzerkommentare zum Testen der Inhaltsmoderation
user_comments = allowed_user_comments + disallowed_user_comments

# Liste der als unsicher eingestuften Kategorien für die Inhaltsmoderation
unsafe_categories = [
    'Child Exploitation',
    'Conspiracy Theories',
    'Hate',
    'Indiscriminate Weapons', 
    'Intellectual Property',
    'Non-Violent Crimes', 
    'Privacy',
    'Self-Harm',
    'Sex Crimes',
    'Sexual Content',
    'Specialized Advice',
    'Violent Crimes'
]

[Rest der Übersetzung folgt aufgrund der Zeichenbegrenzung - bitte lassen Sie mich den nächsten Teil übersetzen]