Inhaltsmoderation ist ein entscheidender Aspekt bei der Aufrechterhaltung einer sicheren, respektvollen und produktiven Umgebung in digitalen Anwendungen. In diesem Leitfaden besprechen wir, wie Claude zur Moderation von Inhalten in Ihrer digitalen Anwendung eingesetzt werden kann.
Besuchen Sie unser Inhaltsmoderationshandbuch, um ein Beispiel für die Implementierung der Inhaltsmoderation mit Claude zu sehen.
Sie wünschen eine kosteneffektive und schnelle Implementierung
Sie wünschen sowohl semantisches Verständnis als auch schnelle Entscheidungen
Sie benötigen konsistente Richtlinienentscheidungen
Ihre Moderationsrichtlinien werden sich wahrscheinlich im Laufe der Zeit ändern oder weiterentwickeln
Sie benötigen interpretierbare Begründungen für Ihre Moderationsentscheidungen
Sie benötigen mehrsprachige Unterstützung ohne separate Modelle zu pflegen
Sie benötigen multimodale Unterstützung
This movie was great, I really enjoyed it. The main actor really killed it!
muss das Inhaltsmoderationsystem erkennen, dass “killed it” eine Metapher ist und kein Hinweis auf tatsächliche Gewalt. Umgekehrt sollte der Kommentar Delete this post now or you better hide. I am coming after you and your family.
trotz des Fehlens expliziter Gewalterwähnungen vom Inhaltsmoderationsystem gekennzeichnet werden.
Die Liste unsafe_categories
kann an Ihre spezifischen Bedürfnisse angepasst werden. Wenn Sie beispielsweise verhindern möchten, dass Minderjährige Inhalte auf Ihrer Website erstellen, könnten Sie “Underage Posting” zur Liste hinzufügen.
explanation
aus der Antwort entfernt wird.moderate_message
einen Bewertungsprompt, der die unsicheren Inhaltskategorien und die Nachricht, die wir bewerten möchten, enthält. Der Prompt fordert Claude auf, zu beurteilen, ob die Nachricht moderiert werden sollte, basierend auf den von uns definierten unsicheren Kategorien.
Die Bewertung des Modells wird dann analysiert, um festzustellen, ob ein Verstoß vorliegt. Wenn ein Verstoß vorliegt, gibt Claude auch eine Liste der verletzten Kategorien sowie eine Erklärung zurück, warum die Nachricht unsicher ist.
assess_risk_level
, die Claude verwendet, um das Risikoniveau einer Nachricht zu bewerten. Die Funktion akzeptiert eine Nachricht und eine Liste unsicherer Kategorien als Eingaben.
Innerhalb der Funktion wird ein Prompt für Claude generiert, der die zu bewertende Nachricht, die unsicheren Kategorien und spezifische Anweisungen zur Bewertung des Risikoniveaus enthält. Der Prompt weist Claude an, mit einem JSON-Objekt zu antworten, das das Risikoniveau, die verletzten Kategorien und eine optionale Erklärung enthält.
Dieser Ansatz ermöglicht eine flexible Inhaltsmoderation durch Zuweisung von Risikoniveaus. Er kann nahtlos in ein größeres System integriert werden, um die Inhaltsfilterung zu automatisieren oder Kommentare basierend auf ihrem bewerteten Risikoniveau für eine manuelle Überprüfung zu kennzeichnen. Beispielsweise wird bei der Ausführung dieses Codes der Kommentar Delete this post now or you better hide. I am coming after you and your family.
aufgrund seiner gefährlichen Drohung als hochriskant eingestuft. Im Gegensatz dazu wird der Kommentar Stay away from the 5G cellphones!! They are using 5G to control you.
als mittelriskant eingestuft.
explanation
in der Claude-Antwort.
moderate_message_with_definitions
erweitert die frühere Funktion moderate_message
, indem sie es ermöglicht, jede unsichere Kategorie mit einer detaillierten Definition zu koppeln. Dies geschieht im Code, indem die Liste unsafe_categories
aus der ursprünglichen Funktion durch ein Wörterbuch unsafe_category_definitions
ersetzt wird. Dieses Wörterbuch ordnet jeder unsicheren Kategorie ihre entsprechende Definition zu. Sowohl die Kategorienamen als auch ihre Definitionen sind im Prompt enthalten.
Bemerkenswert ist, dass die Definition für die Kategorie Specialized Advice
nun die Arten von Finanzberatung spezifiziert, die verboten sein sollten. Infolgedessen löst der Kommentar It's a great time to invest in gold!
, der zuvor die Bewertung von moderate_message
bestanden hat, jetzt einen Verstoß aus.
batch_moderate_messages
die Moderation eines gesamten Stapels von Nachrichten mit einem einzigen Claude API-Aufruf.
Innerhalb der Funktion wird ein Prompt erstellt, der die Liste der zu bewertenden Nachrichten, die definierten unsicheren Inhaltskategorien und ihre Beschreibungen enthält. Der Prompt weist Claude an, ein JSON-Objekt zurückzugeben, das alle Nachrichten auflistet, die Verstöße enthalten. Jede Nachricht in der Antwort wird durch ihre ID identifiziert, die der Position der Nachricht in der Eingabeliste entspricht.
Beachten Sie, dass das Finden der optimalen Stapelgröße für Ihre spezifischen Bedürfnisse einige Experimente erfordern kann. Während größere Stapelgrößen die Kosten senken können, können sie auch zu einer leichten Qualitätsminderung führen. Zusätzlich müssen Sie möglicherweise den Parameter max_tokens
im Claude API-Aufruf erhöhen, um längere Antworten zu ermöglichen. Einzelheiten zur maximalen Anzahl von Tokens, die Ihr gewähltes Modell ausgeben kann, finden Sie auf der Modellvergleichsseite.