Kontextfenster

Das “Kontextfenster” bezieht sich auf die Textmenge, die ein Sprachmodell zurückverfolgen und bei der Generierung neuen Texts als Referenz nutzen kann. Dies unterscheidet sich von der großen Datenmenge, mit der das Sprachmodell trainiert wurde, und stellt stattdessen ein “Arbeitsgedächtnis” für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Eingaben zu verstehen und darauf zu reagieren, während ein kleineres Kontextfenster die Fähigkeit des Modells einschränken kann, längere Eingaben zu verarbeiten oder Kohärenz über längere Gespräche hinweg aufrechtzuerhalten.

Siehe unsere Modellvergleichstabelle für eine Auflistung der Kontextfenstergrößen nach Modell.

Fine-tuning

Fine-tuning ist der Prozess, bei dem ein vortrainiertes Sprachmodell mit zusätzlichen Daten weiter trainiert wird. Dadurch beginnt das Modell, die Muster und Eigenschaften des Fine-tuning-Datensatzes darzustellen und nachzuahmen. Claude ist kein reines Sprachmodell; es wurde bereits für die Rolle eines hilfreichen Assistenten fine-getuned. Unsere API bietet derzeit kein Fine-tuning an, aber bitte fragen Sie Ihren Anthropic-Kontakt, wenn Sie an dieser Option interessiert sind. Fine-tuning kann nützlich sein, um ein Sprachmodell an eine bestimmte Domäne, Aufgabe oder einen Schreibstil anzupassen, erfordert aber sorgfältige Überlegungen hinsichtlich der Fine-tuning-Daten und der möglichen Auswirkungen auf die Leistung und Voreingenommenheit des Modells.

HHH

Diese drei H’s repräsentieren Anthropics Ziele, um sicherzustellen, dass Claude der Gesellschaft nützt:

  • Eine hilfreiche KI wird versuchen, die gestellte Aufgabe oder Frage nach bestem Vermögen zu erfüllen und dabei relevante und nützliche Informationen bereitstellen.
  • Eine ehrliche KI wird genaue Informationen geben und nicht halluzinieren oder konfabulieren. Sie wird ihre Grenzen und Unsicherheiten bei Bedarf eingestehen.
  • Eine harmlose KI wird nicht beleidigend oder diskriminierend sein, und wenn sie gebeten wird, bei einer gefährlichen oder unethischen Handlung zu helfen, sollte die KI höflich ablehnen und erklären, warum sie nicht entsprechen kann.

Latenz

Latenz bezieht sich im Kontext generativer KI und großer Sprachmodelle auf die Zeit, die das Modell benötigt, um auf eine gegebene Eingabe zu reagieren. Es ist die Verzögerung zwischen dem Einreichen einer Eingabe und dem Erhalt der generierten Ausgabe. Eine niedrigere Latenz bedeutet schnellere Antwortzeiten, was für Echtzeit-Anwendungen, Chatbots und interaktive Erlebnisse entscheidend ist. Faktoren, die die Latenz beeinflussen können, sind Modellgröße, Hardware-Fähigkeiten, Netzwerkbedingungen und die Komplexität der Eingabe und der generierten Antwort.

LLM

Große Sprachmodelle (Large Language Models, LLMs) sind KI-Sprachmodelle mit vielen Parametern, die in der Lage sind, verschiedene überraschend nützliche Aufgaben auszuführen. Diese Modelle werden mit riesigen Mengen an Textdaten trainiert und können menschenähnlichen Text generieren, Fragen beantworten, Informationen zusammenfassen und mehr. Claude ist ein Konversationsassistent, der auf einem großen Sprachmodell basiert und durch Fine-tuning und RLHF-Training darauf ausgerichtet wurde, hilfreich, ehrlich und harmlos zu sein.

Pretraining

Pretraining ist der anfängliche Prozess des Trainings von Sprachmodellen mit einem großen, nicht gekennzeichneten Textkorpus. Im Fall von Claude werden autoregressive Sprachmodelle (wie Claudes zugrundeliegendes Modell) darauf vortrainiert, das nächste Wort basierend auf dem vorherigen Textkontext im Dokument vorherzusagen. Diese vortrainierten Modelle sind nicht von Natur aus gut darin, Fragen zu beantworten oder Anweisungen zu befolgen, und erfordern oft tiefgreifende Fähigkeiten im Prompt Engineering, um gewünschte Verhaltensweisen hervorzurufen. Fine-tuning und RLHF werden verwendet, um diese vortrainierten Modelle zu verfeinern und sie für ein breites Spektrum von Aufgaben nützlicher zu machen.

RAG (Retrieval Augmented Generation)

Retrieval Augmented Generation (RAG) ist eine Technik, die Informationsabruf mit Sprachmodell-Generierung kombiniert, um die Genauigkeit und Relevanz des generierten Texts zu verbessern und die Antwort des Modells besser in Beweisen zu verankern. Bei RAG wird ein Sprachmodell mit einer externen Wissensbasis oder einer Reihe von Dokumenten erweitert, die in das Kontextfenster eingegeben werden. Die Daten werden zur Laufzeit abgerufen, wenn eine Anfrage an das Modell gesendet wird, wobei das Modell selbst die Daten nicht unbedingt abruft (aber mit Tool-Nutzung und einer Abruffunktion dazu in der Lage ist). Bei der Generierung von Text müssen zunächst relevante Informationen basierend auf der Eingabeaufforderung aus der Wissensbasis abgerufen und dann zusammen mit der ursprünglichen Anfrage an das Modell übergeben werden. Das Modell verwendet diese Informationen, um die generierte Ausgabe zu steuern. Dies ermöglicht es dem Modell, auf Informationen jenseits seiner Trainingsdaten zuzugreifen und diese zu nutzen, wodurch die Abhängigkeit von Auswendiglernen reduziert und die faktische Genauigkeit des generierten Texts verbessert wird. RAG kann besonders nützlich sein für Aufgaben, die aktuelle Informationen, domänenspezifisches Wissen oder explizite Quellenangaben erfordern. Die Effektivität von RAG hängt jedoch von der Qualität und Relevanz der externen Wissensbasis und der zur Laufzeit abgerufenen Informationen ab.

RLHF

Reinforcement Learning from Human Feedback (RLHF) ist eine Technik, die verwendet wird, um ein vortrainiertes Sprachmodell so zu trainieren, dass es sich in einer Weise verhält, die mit menschlichen Präferenzen übereinstimmt. Dies kann dazu beitragen, dass das Modell Anweisungen effektiver befolgt oder sich mehr wie ein Chatbot verhält. Das menschliche Feedback besteht aus der Bewertung von zwei oder mehr Beispieltexten, und der Reinforcement-Learning-Prozess ermutigt das Modell, Ausgaben zu bevorzugen, die den höher bewerteten ähneln. Claude wurde mit RLHF trainiert, um ein hilfreicherer Assistent zu sein. Weitere Details finden Sie in Anthropics Artikel zu diesem Thema.

Temperature

Temperature ist ein Parameter, der die Zufälligkeit der Vorhersagen eines Modells während der Textgenerierung steuert. Höhere Temperaturen führen zu kreativeren und vielfältigeren Ausgaben, die mehrere Variationen in der Formulierung und im Fall von Fiktion auch Variation in den Antworten ermöglichen. Niedrigere Temperaturen führen zu konservativeren und deterministischeren Ausgaben, die sich an die wahrscheinlichsten Formulierungen und Antworten halten. Die Anpassung der Temperature ermöglicht es Benutzern, ein Sprachmodell zu ermutigen, seltene, ungewöhnliche oder überraschende Wortwahlen und Sequenzen zu erkunden, anstatt nur die wahrscheinlichsten Vorhersagen auszuwählen.

TTFT (Time to First Token)

Time to First Token (TTFT) ist eine Leistungsmetrik, die die Zeit misst, die ein Sprachmodell benötigt, um nach Erhalt einer Eingabe das erste Token seiner Ausgabe zu generieren. Es ist ein wichtiger Indikator für die Reaktionsfähigkeit des Modells und ist besonders relevant für interaktive Anwendungen, Chatbots und Echtzeitsysteme, bei denen Benutzer schnelles initiales Feedback erwarten. Eine niedrigere TTFT zeigt an, dass das Modell schneller mit der Generierung einer Antwort beginnen kann, was ein nahtloseres und ansprechenderes Benutzererlebnis ermöglicht. Faktoren, die die TTFT beeinflussen können, sind Modellgröße, Hardware-Fähigkeiten, Netzwerkbedingungen und die Komplexität der Eingabe.

Tokens

Tokens sind die kleinsten individuellen Einheiten eines Sprachmodells und können Wörtern, Teilwörtern, Zeichen oder sogar Bytes (im Fall von Unicode) entsprechen. Für Claude entspricht ein Token ungefähr 3,5 englischen Zeichen, wobei die genaue Anzahl je nach verwendeter Sprache variieren kann. Tokens sind typischerweise verborgen, wenn man auf der “Text”-Ebene mit Sprachmodellen interagiert, werden aber relevant, wenn man die genauen Ein- und Ausgaben eines Sprachmodells untersucht. Wenn Claude Text zur Auswertung erhält, wird der Text (bestehend aus einer Reihe von Zeichen) in eine Reihe von Tokens für das Modell zur Verarbeitung kodiert. Größere Tokens ermöglichen Dateneffizienz während der Inferenz und des Pretrainings (und werden wenn möglich genutzt), während kleinere Tokens es einem Modell ermöglichen, ungewöhnliche oder nie zuvor gesehene Wörter zu verarbeiten. Die Wahl der Tokenisierungsmethode kann die Leistung des Modells, die Vokabulargröße und die Fähigkeit, Wörter außerhalb des Vokabulars zu verarbeiten, beeinflussen.

Was this page helpful?