Latenz bezieht sich auf die Zeit, die das Modell benötigt, um einen Prompt zu verarbeiten und eine Ausgabe zu generieren. Die Latenz kann von verschiedenen Faktoren beeinflusst werden, wie der Größe des Modells, der Komplexität des Prompts und der zugrunde liegenden Infrastruktur, die das Modell und den Interaktionspunkt unterstützt.

Es ist immer besser, zuerst einen Prompt zu entwickeln, der ohne Modell- oder Prompt-Einschränkungen gut funktioniert, und dann im Nachhinein Strategien zur Latenzreduzierung auszuprobieren. Der Versuch, die Latenz vorzeitig zu reduzieren, könnte verhindern, dass Sie herausfinden, wie Spitzenleistung aussieht.


Wie man Latenz misst

Wenn man über Latenz spricht, stößt man möglicherweise auf mehrere Begriffe und Messungen:

  • Baseline-Latenz: Dies ist die Zeit, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren, ohne die Eingabe- und Ausgabe-Token pro Sekunde zu berücksichtigen. Sie gibt eine allgemeine Vorstellung von der Geschwindigkeit des Modells.
  • Zeit bis zum ersten Token (TTFT): Diese Metrik misst die Zeit, die das Modell benötigt, um das erste Token der Antwort zu generieren, ab dem Zeitpunkt, an dem der Prompt gesendet wurde. Sie ist besonders relevant, wenn Sie Streaming verwenden (mehr dazu später) und Ihren Benutzern ein reaktionsschnelles Erlebnis bieten möchten.

Für ein tieferes Verständnis dieser Begriffe, schauen Sie in unser Glossar.


Wie man Latenz reduziert

1. Wählen Sie das richtige Modell

Eine der einfachsten Möglichkeiten, die Latenz zu reduzieren, besteht darin, das geeignete Modell für Ihren Anwendungsfall auszuwählen. Anthropic bietet eine Reihe von Modellen mit unterschiedlichen Fähigkeiten und Leistungsmerkmalen an. Berücksichtigen Sie Ihre spezifischen Anforderungen und wählen Sie das Modell, das am besten zu Ihren Anforderungen in Bezug auf Geschwindigkeit und Ausgabequalität passt. Weitere Einzelheiten zu den Modellmetriken finden Sie auf unserer Seite Modellübersicht.

2. Optimieren Sie die Länge von Prompt und Ausgabe

Minimieren Sie die Anzahl der Token sowohl in Ihrem Eingabe-Prompt als auch in der erwarteten Ausgabe, ohne dabei die hohe Leistung zu beeinträchtigen. Je weniger Token das Modell verarbeiten und generieren muss, desto schneller erfolgt die Antwort.

Hier sind einige Tipps, die Ihnen helfen, Ihre Prompts und Ausgaben zu optimieren:

  • Seien Sie klar, aber prägnant: Versuchen Sie, Ihre Absicht im Prompt klar und präzise zu vermitteln. Vermeiden Sie unnötige Details oder redundante Informationen, denken Sie aber daran, dass Claude den Kontext Ihres Anwendungsfalls nicht kennt und möglicherweise nicht die beabsichtigten logischen Sprünge macht, wenn die Anweisungen unklar sind.
  • Fragen Sie nach kürzeren Antworten: Bitten Sie Claude direkt, prägnant zu sein. Die Claude 3-Modellfamilie hat im Vergleich zu früheren Generationen eine verbesserte Steuerbarkeit. Wenn Claude unerwünschte Längen ausgibt, bitten Sie Claude, seine Geschwätzigkeit zu zügeln.
    Da LLMs Token anstelle von Wörtern zählen, ist die Angabe einer exakten Wortzahl oder einer Wortzahlbegrenzung keine so effektive Strategie wie die Angabe von Absatz- oder Satzzahlbegrenzungen.
  • Legen Sie angemessene Ausgabegrenzen fest: Verwenden Sie den Parameter max_tokens, um eine harte Grenze für die maximale Länge der generierten Antwort festzulegen. Dies verhindert, dass Claude übermäßig lange Ausgaben generiert.

    Hinweis: Wenn die Antwort max_tokens Token erreicht, wird die Antwort abgeschnitten, vielleicht mitten im Satz oder mitten im Wort. Dies ist also eine grobe Technik, die möglicherweise eine Nachbearbeitung erfordert und in der Regel am besten für Multiple-Choice- oder Kurzantworten geeignet ist, bei denen die Antwort gleich am Anfang kommt.

  • Experimentieren Sie mit der Temperatur: Der Parameter temperature steuert die Zufälligkeit der Ausgabe. Niedrigere Werte (z. B. 0,2) können manchmal zu fokussierteren und kürzeren Antworten führen, während höhere Werte (z. B. 0,8) zu vielfältigeren, aber möglicherweise längeren Ausgaben führen können.

Das richtige Gleichgewicht zwischen Promptklarheit, Ausgabequalität und Tokenanzahl zu finden, erfordert möglicherweise etwas Experimentieren.

3. Nutzen Sie Streaming

Streaming ist eine Funktion, die es dem Modell ermöglicht, mit dem Zurücksenden seiner Antwort zu beginnen, bevor die vollständige Ausgabe abgeschlossen ist. Dies kann die wahrgenommene Reaktionsfähigkeit Ihrer Anwendung erheblich verbessern, da die Benutzer die Ausgabe des Modells in Echtzeit sehen können.

Wenn Streaming aktiviert ist, können Sie die Ausgabe des Modells verarbeiten, sobald sie eintrifft, die Benutzeroberfläche aktualisieren oder andere Aufgaben parallel ausführen. Dies kann die Benutzererfahrung erheblich verbessern und Ihre Anwendung interaktiver und reaktionsschneller machen.

Besuchen Sie Streaming Messages, um zu erfahren, wie Sie Streaming für Ihren Anwendungsfall implementieren können.