Sviluppa casi di test per misurare le prestazioni del tuo LLM contro i criteri di successo definiti.
Esempi di casi limite
Fedeltà del compito (analisi del sentiment) - valutazione di corrispondenza esatta
Coerenza (bot FAQ) - valutazione di similarità coseno
Rilevanza e coerenza (riassunto) - valutazione ROUGE-L
Tono e stile (servizio clienti) - scala Likert basata su LLM
Preservazione della privacy (chatbot medico) - classificazione binaria basata su LLM
Utilizzo del contesto (assistente conversazionale) - scala ordinale basata su LLM
output == golden_answer
key_phrase in output
Esempio: Valutazione basata su LLM