Latenz reduzieren
Latenz bezieht sich auf die Zeit, die das Modell benötigt, um einen Prompt zu verarbeiten und eine Ausgabe zu generieren. Die Latenz kann von verschiedenen Faktoren beeinflusst werden, wie der Größe des Modells, der Komplexität des Prompts und der zugrundeliegenden Infrastruktur, die das Modell und den Interaktionspunkt unterstützt.
Es ist immer besser, zunächst einen Prompt zu entwickeln, der ohne Modell- oder Prompt-Einschränkungen gut funktioniert, und erst danach Strategien zur Latenzreduzierung anzuwenden. Eine vorzeitige Latenzreduzierung könnte Sie daran hindern, die maximale Leistung zu entdecken.
Wie man Latenz misst
Bei der Diskussion über Latenz werden Sie möglicherweise auf verschiedene Begriffe und Messungen stoßen:
- Basis-Latenz: Dies ist die Zeit, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren, ohne die Ein- und Ausgabe-Token pro Sekunde zu berücksichtigen. Sie gibt einen allgemeinen Eindruck von der Geschwindigkeit des Modells.
- Zeit bis zum ersten Token (TTFT): Diese Metrik misst die Zeit, die das Modell benötigt, um das erste Token der Antwort zu generieren, nachdem der Prompt gesendet wurde. Dies ist besonders relevant, wenn Sie Streaming verwenden (mehr dazu später) und Ihren Benutzern eine reaktionsschnelle Erfahrung bieten möchten.
Für ein tieferes Verständnis dieser Begriffe schauen Sie in unser Glossar.
Wie man Latenz reduziert
1. Wählen Sie das richtige Modell
Eine der einfachsten Möglichkeiten, die Latenz zu reduzieren, ist die Auswahl des geeigneten Modells für Ihren Anwendungsfall. Anthropic bietet eine Reihe von Modellen mit unterschiedlichen Fähigkeiten und Leistungsmerkmalen. Berücksichtigen Sie Ihre spezifischen Anforderungen und wählen Sie das Modell, das am besten zu Ihren Bedürfnissen in Bezug auf Geschwindigkeit und Ausgabequalität passt. Weitere Details zu Modellmetriken finden Sie auf unserer Modellübersicht-Seite.
2. Optimieren Sie Prompt- und Ausgabelänge
Minimieren Sie die Anzahl der Token sowohl in Ihrem Eingabe-Prompt als auch in der erwarteten Ausgabe, während Sie weiterhin eine hohe Leistung aufrechterhalten. Je weniger Token das Modell verarbeiten und generieren muss, desto schneller wird die Antwort sein.
Hier sind einige Tipps, die Ihnen bei der Optimierung Ihrer Prompts und Ausgaben helfen:
- Seien Sie klar, aber prägnant: Versuchen Sie, Ihre Absicht im Prompt klar und präzise zu vermitteln. Vermeiden Sie unnötige Details oder redundante Informationen, bedenken Sie aber, dass Claude den Kontext fehlt für Ihren Anwendungsfall und möglicherweise nicht die beabsichtigten logischen Sprünge macht, wenn Anweisungen unklar sind.
- Bitten Sie um kürzere Antworten: Bitten Sie Claude direkt, prägnant zu sein. Die Claude 3-Modellfamilie verfügt über eine verbesserte Steuerbarkeit im Vergleich zu früheren Generationen. Wenn Claude unerwünschte Länge ausgibt, bitten Sie Claude, seine Gesprächigkeit zu zügeln.
Aufgrund der Art und Weise, wie LLMs Token anstelle von Wörtern zählen, ist das Festlegen einer genauen Wortzahl oder einer Wortzahlbegrenzung keine so effektive Strategie wie das Festlegen von Absatz- oder Satzzahlbegrenzungen.
- Setzen Sie angemessene Ausgabegrenzen: Verwenden Sie den
max_tokens
-Parameter, um eine harte Grenze für die maximale Länge der generierten Antwort festzulegen. Dies verhindert, dass Claude übermäßig lange Ausgaben generiert.Hinweis: Wenn die Antwort
max_tokens
Token erreicht, wird die Antwort abgeschnitten, möglicherweise mitten im Satz oder Wort. Dies ist daher eine grobe Technik, die möglicherweise eine Nachbearbeitung erfordert und normalerweise am besten für Multiple-Choice- oder Kurzantworten geeignet ist, bei denen die Antwort gleich am Anfang steht. - Experimentieren Sie mit der Temperatur: Der
temperature
-Parameter steuert die Zufälligkeit der Ausgabe. Niedrigere Werte (z.B. 0,2) können manchmal zu fokussierteren und kürzeren Antworten führen, während höhere Werte (z.B. 0,8) zu vielfältigeren, aber möglicherweise längeren Ausgaben führen können.
Die richtige Balance zwischen Prompt-Klarheit, Ausgabequalität und Token-Anzahl zu finden, erfordert möglicherweise einige Experimente.
3. Nutzen Sie Streaming
Streaming ist eine Funktion, die es dem Modell ermöglicht, seine Antwort zu senden, bevor die vollständige Ausgabe abgeschlossen ist. Dies kann die wahrgenommene Reaktionsfähigkeit Ihrer Anwendung erheblich verbessern, da Benutzer die Ausgabe des Modells in Echtzeit sehen können.
Mit aktiviertem Streaming können Sie die Ausgabe des Modells verarbeiten, während sie eintrifft, Ihre Benutzeroberfläche aktualisieren oder andere Aufgaben parallel ausführen. Dies kann die Benutzererfahrung erheblich verbessern und Ihre Anwendung interaktiver und reaktionsschneller erscheinen lassen.
Besuchen Sie Streaming Messages, um zu erfahren, wie Sie Streaming für Ihren Anwendungsfall implementieren können.