Glossar
Diese Konzepte sind nicht einzigartig für die Sprachmodelle von Anthropic, aber wir präsentieren eine kurze Zusammenfassung wichtiger Begriffe.
Kontextfenster
Das “Kontextfenster” bezieht sich auf die Textmenge, auf die ein Sprachmodell zurückblicken und sich beziehen kann, wenn es neuen Text generiert. Dies unterscheidet sich von dem großen Datenkorpus, mit dem das Sprachmodell trainiert wurde, und stellt stattdessen ein “Arbeitsgedächtnis” für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Prompts zu verstehen und darauf zu reagieren, während ein kleineres Kontextfenster die Fähigkeit des Modells einschränken kann, längere Prompts zu verarbeiten oder Kohärenz über längere Gespräche hinweg aufrechtzuerhalten.
Weitere Informationen finden Sie in unserem Leitfaden zum Verständnis von Kontextfenstern.
Fine-Tuning
Fine-Tuning ist der Prozess, bei dem ein vortrainiertes Sprachmodell mit zusätzlichen Daten weiter trainiert wird. Dies führt dazu, dass das Modell beginnt, die Muster und Eigenschaften des Fine-Tuning-Datensatzes darzustellen und nachzuahmen. Claude ist kein reines Sprachmodell; es wurde bereits feinabgestimmt, um ein hilfreicher Assistent zu sein. Unsere API bietet derzeit kein Fine-Tuning an, aber bitte fragen Sie Ihren Anthropic-Kontakt, wenn Sie an dieser Option interessiert sind. Fine-Tuning kann nützlich sein, um ein Sprachmodell an eine bestimmte Domäne, Aufgabe oder einen bestimmten Schreibstil anzupassen, erfordert jedoch eine sorgfältige Berücksichtigung der Fine-Tuning-Daten und der potenziellen Auswirkungen auf die Leistung und Voreingenommenheit des Modells.
HHH
Diese drei H stehen für Anthropics Ziele, sicherzustellen, dass Claude für die Gesellschaft von Nutzen ist:
- Eine hilfreiche KI wird versuchen, die gestellte Aufgabe zu erfüllen oder die Frage nach bestem Wissen und Gewissen zu beantworten und dabei relevante und nützliche Informationen zu liefern.
- Eine ehrliche KI wird genaue Informationen geben und nicht halluzinieren oder konfabulieren. Sie wird ihre Grenzen und Unsicherheiten anerkennen, wenn es angebracht ist.
- Eine harmlose KI wird nicht beleidigend oder diskriminierend sein, und wenn sie gebeten wird, bei einer gefährlichen oder unethischen Handlung zu helfen, sollte die KI höflich ablehnen und erklären, warum sie nicht entsprechen kann.
Latenz
Latenz bezieht sich im Kontext generativer KI und großer Sprachmodelle auf die Zeit, die das Modell benötigt, um auf einen bestimmten Prompt zu reagieren. Es ist die Verzögerung zwischen dem Absenden eines Prompts und dem Empfangen der generierten Ausgabe. Eine niedrigere Latenz deutet auf schnellere Antwortzeiten hin, was für Echtzeit-Anwendungen, Chatbots und interaktive Erlebnisse entscheidend ist. Faktoren, die die Latenz beeinflussen können, sind die Modellgröße, die Hardware-Fähigkeiten, die Netzwerkbedingungen und die Komplexität des Prompts und der generierten Antwort.
LLM
Große Sprachmodelle (Large Language Models, LLMs) sind KI-Sprachmodelle mit vielen Parametern, die in der Lage sind, eine Vielzahl überraschend nützlicher Aufgaben auszuführen. Diese Modelle werden mit riesigen Mengen an Textdaten trainiert und können menschenähnlichen Text generieren, Fragen beantworten, Informationen zusammenfassen und vieles mehr. Claude ist ein Konversationsassistent, der auf einem großen Sprachmodell basiert, das mit RLHF feinabgestimmt und trainiert wurde, um hilfreicher, ehrlicher und harmloser zu sein.
MCP (Model Context Protocol)
Das Model Context Protocol (MCP) ist ein offenes Protokoll, das standardisiert, wie Anwendungen LLMs Kontext bereitstellen. Wie ein USB-C-Anschluss für KI-Anwendungen bietet MCP eine einheitliche Möglichkeit, KI-Modelle mit verschiedenen Datenquellen und Tools zu verbinden. MCP ermöglicht es KI-Systemen, konsistenten Kontext über Interaktionen hinweg zu bewahren und auf externe Ressourcen auf standardisierte Weise zuzugreifen. Weitere Informationen finden Sie in unserer MCP-Dokumentation.
MCP-Connector
Der MCP-Connector ist eine Funktion, die es API-Benutzern ermöglicht, direkt von der Messages API aus eine Verbindung zu MCP-Servern herzustellen, ohne einen MCP-Client zu erstellen. Dies ermöglicht eine nahtlose Integration mit MCP-kompatiblen Tools und Diensten über die Anthropic API. Der MCP-Connector unterstützt Funktionen wie Tool Calling und ist in der öffentlichen Beta-Version verfügbar. Weitere Informationen finden Sie in unserer MCP-Connector-Dokumentation.
Pretraining
Pretraining ist der anfängliche Prozess des Trainings von Sprachmodellen mit einem großen, nicht gekennzeichneten Textkorpus. Im Fall von Claude werden autoregressive Sprachmodelle (wie das zugrunde liegende Modell von Claude) vortrainiert, um das nächste Wort vorherzusagen, basierend auf dem vorherigen Kontext des Textes im Dokument. Diese vortrainierten Modelle sind nicht von Natur aus gut darin, Fragen zu beantworten oder Anweisungen zu befolgen, und erfordern oft tiefe Fähigkeiten im Prompt Engineering, um gewünschte Verhaltensweisen hervorzurufen. Fine-Tuning und RLHF werden verwendet, um diese vortrainierten Modelle zu verfeinern und sie für eine breite Palette von Aufgaben nützlicher zu machen.
RAG (Retrieval Augmented Generation)
Retrieval Augmented Generation (RAG) ist eine Technik, die Informationsabruf mit Sprachmodellgenerierung kombiniert, um die Genauigkeit und Relevanz des generierten Textes zu verbessern und die Antwort des Modells besser in Beweisen zu verankern. Bei RAG wird ein Sprachmodell mit einer externen Wissensdatenbank oder einer Reihe von Dokumenten erweitert, die in das Kontextfenster eingegeben werden. Die Daten werden zur Laufzeit abgerufen, wenn eine Anfrage an das Modell gesendet wird, obwohl das Modell selbst die Daten nicht unbedingt abruft (aber mit Tool Use und einer Abruffunktion kann es das tun). Bei der Generierung von Text müssen zunächst relevante Informationen aus der Wissensdatenbank basierend auf dem Eingabeprompt abgerufen und dann zusammen mit der ursprünglichen Anfrage an das Modell übergeben werden. Das Modell verwendet diese Informationen, um die Ausgabe zu steuern, die es generiert. Dies ermöglicht es dem Modell, auf Informationen zuzugreifen und diese zu nutzen, die über seine Trainingsdaten hinausgehen, wodurch die Abhängigkeit von Auswendiglernen reduziert und die faktische Genauigkeit des generierten Textes verbessert wird. RAG kann besonders nützlich sein für Aufgaben, die aktuelle Informationen, domänenspezifisches Wissen oder explizite Quellenangaben erfordern. Die Wirksamkeit von RAG hängt jedoch von der Qualität und Relevanz der externen Wissensdatenbank und des zur Laufzeit abgerufenen Wissens ab.
RLHF
Reinforcement Learning from Human Feedback (RLHF) ist eine Technik, die verwendet wird, um ein vortrainiertes Sprachmodell so zu trainieren, dass es sich auf eine Weise verhält, die mit menschlichen Präferenzen übereinstimmt. Dies kann dazu beitragen, dass das Modell Anweisungen effektiver befolgt oder sich mehr wie ein Chatbot verhält. Das menschliche Feedback besteht aus der Bewertung einer Reihe von zwei oder mehr Beispieltexten, und der Reinforcement-Learning-Prozess ermutigt das Modell, Ausgaben zu bevorzugen, die den höher bewerteten ähneln. Claude wurde mit RLHF trainiert, um ein hilfreicherer Assistent zu sein. Weitere Details finden Sie in Anthropics Artikel zu diesem Thema.
Temperatur
Temperatur ist ein Parameter, der die Zufälligkeit der Vorhersagen eines Modells während der Textgenerierung steuert. Höhere Temperaturen führen zu kreativeren und vielfältigeren Ausgaben, die mehrere Variationen in der Formulierung und, im Falle von Fiktion, auch Variation in den Antworten ermöglichen. Niedrigere Temperaturen führen zu konservativeren und deterministischeren Ausgaben, die sich an die wahrscheinlichsten Formulierungen und Antworten halten. Die Anpassung der Temperatur ermöglicht es Benutzern, ein Sprachmodell zu ermutigen, seltene, ungewöhnliche oder überraschende Wortwahlen und Sequenzen zu erkunden, anstatt nur die wahrscheinlichsten Vorhersagen auszuwählen.
TTFT (Time to First Token)
Time to First Token (TTFT) ist eine Leistungsmetrik, die die Zeit misst, die ein Sprachmodell benötigt, um das erste Token seiner Ausgabe zu generieren, nachdem es einen Prompt erhalten hat. Es ist ein wichtiger Indikator für die Reaktionsfähigkeit des Modells und ist besonders relevant für interaktive Anwendungen, Chatbots und Echtzeitsysteme, bei denen Benutzer schnelles erstes Feedback erwarten. Ein niedrigerer TTFT zeigt an, dass das Modell schneller mit der Generierung einer Antwort beginnen kann, was ein nahtloseres und ansprechenderes Benutzererlebnis bietet. Faktoren, die den TTFT beeinflussen können, sind die Modellgröße, die Hardware-Fähigkeiten, die Netzwerkbedingungen und die Komplexität des Prompts.
Tokens
Tokens sind die kleinsten individuellen Einheiten eines Sprachmodells und können Wörtern, Teilwörtern, Zeichen oder sogar Bytes (im Fall von Unicode) entsprechen. Für Claude entspricht ein Token ungefähr 3,5 englischen Zeichen, obwohl die genaue Anzahl je nach verwendeter Sprache variieren kann. Tokens sind typischerweise verborgen, wenn man mit Sprachmodellen auf der “Text”-Ebene interagiert, werden aber relevant, wenn man die genauen Ein- und Ausgaben eines Sprachmodells untersucht. Wenn Claude Text zur Auswertung erhält, wird der Text (bestehend aus einer Reihe von Zeichen) in eine Reihe von Tokens codiert, die das Modell verarbeiten kann. Größere Tokens ermöglichen Dateneffizienz während der Inferenz und des Pretrainings (und werden wenn möglich genutzt), während kleinere Tokens es einem Modell ermöglichen, ungewöhnliche oder noch nie gesehene Wörter zu verarbeiten. Die Wahl der Tokenisierungsmethode kann die Leistung des Modells, die Vokabulargröße und die Fähigkeit, Wörter außerhalb des Vokabulars zu verarbeiten, beeinflussen.