Kontextfenster

Das “Kontextfenster” bezieht sich auf die Textmenge, auf die ein Sprachmodell zurückblicken und beim Generieren von neuem Text referenzieren kann. Dies unterscheidet sich von dem großen Datenkorpus, auf dem das Sprachmodell trainiert wurde, und stellt stattdessen ein “Arbeitsgedächtnis” für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Prompts zu verstehen und darauf zu reagieren, während ein kleineres Kontextfenster die Fähigkeit des Modells einschränken kann, längere Prompts zu verarbeiten oder die Kohärenz über längere Konversationen aufrechtzuerhalten.

Siehe unsere Modellvergleichstabelle für eine Liste der Kontextfenstergrößen nach Modell.

Fine-Tuning

Fine-Tuning ist der Prozess des weiteren Trainierens eines vortrainierten Sprachmodells mit zusätzlichen Daten. Dadurch beginnt das Modell, die Muster und Eigenschaften des Fine-Tuning-Datensatzes darzustellen und nachzuahmen. Claude ist kein reines Sprachmodell; es wurde bereits durch Fine-Tuning zu einem hilfreichen Assistenten weiterentwickelt. Unsere API bietet derzeit kein Fine-Tuning an, aber bitte fragen Sie Ihren Anthropic-Kontakt, wenn Sie daran interessiert sind, diese Option zu erkunden. Fine-Tuning kann nützlich sein, um ein Sprachmodell an eine bestimmte Domäne, Aufgabe oder einen Schreibstil anzupassen, erfordert jedoch eine sorgfältige Berücksichtigung der Fine-Tuning-Daten und der möglichen Auswirkungen auf die Leistung und Verzerrungen des Modells.

HHH

Diese drei H’s repräsentieren die Ziele von Anthropic, um sicherzustellen, dass Claude der Gesellschaft zugute kommt:

  • Eine hilfreiche KI wird versuchen, die gestellte Aufgabe oder Frage nach bestem Wissen und Gewissen zu erfüllen und relevante und nützliche Informationen bereitzustellen.
  • Eine ehrliche KI wird genaue Informationen liefern und nicht halluzinieren oder konfabulieren. Sie wird gegebenenfalls ihre Grenzen und Unsicherheiten eingestehen.
  • Eine harmlose KI wird nicht beleidigend oder diskriminierend sein, und wenn sie gebeten wird, bei einer gefährlichen oder unethischen Handlung zu helfen, sollte die KI höflich ablehnen und erklären, warum sie nicht zustimmen kann.

Latenz

Latenz bezieht sich im Kontext von generativer KI und großen Sprachmodellen auf die Zeit, die das Modell benötigt, um auf einen bestimmten Prompt zu antworten. Es ist die Verzögerung zwischen der Eingabe eines Prompts und dem Erhalt der generierten Ausgabe. Eine geringere Latenz bedeutet schnellere Reaktionszeiten, was für Echtzeit-Anwendungen, Chatbots und interaktive Erfahrungen entscheidend ist. Faktoren, die die Latenz beeinflussen können, sind die Modellgröße, die Hardwarefähigkeiten, die Netzwerkbedingungen sowie die Komplexität des Prompts und der generierten Antwort.

LLM

Große Sprachmodelle (Large Language Models, LLMs) sind KI-Sprachmodelle mit vielen Parametern, die in der Lage sind, eine Vielzahl von überraschend nützlichen Aufgaben auszuführen. Diese Modelle werden mit riesigen Mengen an Textdaten trainiert und können menschenähnlichen Text generieren, Fragen beantworten, Informationen zusammenfassen und vieles mehr. Claude ist ein Konversationsassistent, der auf einem großen Sprachmodell basiert, das durch Fine-Tuning und Training mit RLHF weiterentwickelt wurde, um hilfreicher, ehrlicher und harmloser zu sein.

Pretraining

Pretraining ist der anfängliche Prozess des Trainierens von Sprachmodellen mit einem großen, ungelabelten Textkorpus. Im Fall von Claude werden autoregressive Sprachmodelle (wie Claudes zugrunde liegendes Modell) darauf trainiert, das nächste Wort vorherzusagen, basierend auf dem vorherigen Textkontext im Dokument. Diese vortrainierten Modelle sind nicht von Natur aus gut darin, Fragen zu beantworten oder Anweisungen zu befolgen, und erfordern oft tiefes Geschick im Prompt Engineering, um das gewünschte Verhalten hervorzurufen. Fine-Tuning und RLHF werden verwendet, um diese vortrainierten Modelle zu verfeinern und für eine Vielzahl von Aufgaben nützlicher zu machen.

RAG (Retrieval Augmented Generation)

Retrieval Augmented Generation (RAG) ist eine Technik, die Information Retrieval mit der Generierung von Sprachmodellen kombiniert, um die Genauigkeit und Relevanz des generierten Textes zu verbessern und die Antwort des Modells besser in Beweisen zu verankern. Bei RAG wird ein Sprachmodell mit einer externen Wissensbasis oder einer Reihe von Dokumenten erweitert, die in das Kontextfenster übergeben werden. Die Daten werden zur Laufzeit abgerufen, wenn eine Abfrage an das Modell gesendet wird, obwohl das Modell selbst die Daten nicht unbedingt abruft (aber mit Tool-Nutzung und einer Abruffunktion kann). Bei der Generierung von Text müssen zunächst relevante Informationen aus der Wissensbasis basierend auf dem Eingabe-Prompt abgerufen und dann zusammen mit der ursprünglichen Abfrage an das Modell übergeben werden. Das Modell verwendet diese Informationen, um die Ausgabe zu steuern, die es generiert. Dadurch kann das Modell auf Informationen zugreifen und diese nutzen, die über seine Trainingsdaten hinausgehen, wodurch die Abhängigkeit von der Memorisierung verringert und die sachliche Genauigkeit des generierten Textes verbessert wird. RAG kann besonders nützlich sein für Aufgaben, die aktuelle Informationen, domänenspezifisches Wissen oder explizite Quellenangaben erfordern. Die Effektivität von RAG hängt jedoch von der Qualität und Relevanz der externen Wissensbasis und des Wissens ab, das zur Laufzeit abgerufen wird.

RLHF

Reinforcement Learning from Human Feedback (RLHF) ist eine Technik, die verwendet wird, um ein vortrainiertes Sprachmodell so zu trainieren, dass es sich in Übereinstimmung mit menschlichen Präferenzen verhält. Dazu kann gehören, dem Modell zu helfen, Anweisungen effektiver zu befolgen oder sich mehr wie ein Chatbot zu verhalten. Das menschliche Feedback besteht darin, eine Reihe von zwei oder mehr Beispieltexten zu bewerten, und der Reinforcement-Learning-Prozess ermutigt das Modell, Ausgaben zu bevorzugen, die den höher bewerteten ähnlich sind. Claude wurde mit RLHF trainiert, um ein hilfreicherer Assistent zu sein. Weitere Details finden Sie in Anthropics Artikel zu diesem Thema.

Temperatur

Temperatur ist ein Parameter, der die Zufälligkeit der Vorhersagen eines Modells während der Textgenerierung steuert. Höhere Temperaturen führen zu kreativeren und vielfältigeren Ausgaben, die mehrere Variationen in der Formulierung und, im Falle von Fiktion, auch Variationen in den Antworten zulassen. Niedrigere Temperaturen führen zu konservativeren und deterministischeren Ausgaben, die sich an die wahrscheinlichsten Formulierungen und Antworten halten. Durch die Anpassung der Temperatur können Benutzer ein Sprachmodell dazu ermutigen, seltene, ungewöhnliche oder überraschende Wortauswahlen und -sequenzen zu erkunden, anstatt nur die wahrscheinlichsten Vorhersagen auszuwählen. Claude Slackbot verwendet eine Temperatur ungleich Null, wenn es Antworten generiert, was eine gewisse Variation in seinen Antworten ermöglicht und gleichzeitig Kohärenz und Relevanz beibehält.

TTFT (Time to First Token)

Time to First Token (TTFT) ist eine Leistungsmetrik, die die Zeit misst, die ein Sprachmodell benötigt, um das erste Token seiner Ausgabe zu generieren, nachdem es einen Prompt erhalten hat. Es ist ein wichtiger Indikator für die Reaktionsfähigkeit des Modells und ist besonders relevant für interaktive Anwendungen, Chatbots und Echtzeitsysteme, bei denen die Benutzer schnelles erstes Feedback erwarten. Eine niedrigere TTFT bedeutet, dass das Modell schneller mit der Generierung einer Antwort beginnen kann, was eine nahtlosere und ansprechendere Benutzererfahrung bietet. Faktoren, die die TTFT beeinflussen können, sind die Modellgröße, die Hardwarefähigkeiten, die Netzwerkbedingungen und die Komplexität des Prompts.

Tokens

Tokens sind die kleinsten individuellen Einheiten eines Sprachmodells und können Wörtern, Subwörtern, Zeichen oder sogar Bytes (im Falle von Unicode) entsprechen. Bei Claude repräsentiert ein Token ungefähr 3,5 englische Zeichen, obwohl die genaue Anzahl je nach verwendeter Sprache variieren kann. Tokens sind in der Regel verborgen, wenn man mit Sprachmodellen auf der “Text”-Ebene interagiert, werden aber relevant, wenn man die genauen Ein- und Ausgaben eines Sprachmodells untersucht. Wenn Claude Text zur Auswertung erhält, wird der Text (bestehend aus einer Reihe von Zeichen) in eine Reihe von Tokens kodiert, die das Modell verarbeiten kann. Größere Tokens ermöglichen Dateneffizienz während der Inferenz und des Pretrainings (und werden nach Möglichkeit genutzt), während kleinere Tokens es einem Modell ermöglichen, ungewöhnliche oder noch nie gesehene Wörter zu verarbeiten. Die Wahl der Tokenisierungsmethode kann die Leistung des Modells, die Größe des Vokabulars und die Fähigkeit, Out-of-Vocabulary-Wörter zu verarbeiten, beeinflussen.