Crear evaluaciones empíricas sólidas
Después de definir tus criterios de éxito, el siguiente paso es diseñar evaluaciones para medir el rendimiento del LLM en relación con esos criterios. Esta es una parte vital del ciclo de ingeniería de prompts.
Esta guía se centra en cómo desarrollar tus casos de prueba.
Construyendo evaluaciones y casos de prueba
Principios de diseño de evaluaciones
- Ser específico de la tarea: Diseña evaluaciones que reflejen la distribución de tareas del mundo real. ¡No olvides tener en cuenta los casos extremos!
- Automatizar cuando sea posible: Estructura las preguntas para permitir la calificación automatizada (por ejemplo, opción múltiple, coincidencia de cadenas, calificación por código, calificación por LLM).
- Priorizar el volumen sobre la calidad: Es mejor tener más preguntas con evaluaciones automatizadas de señal ligeramente más baja que menos preguntas con evaluaciones manuales de alta calidad.
Ejemplos de evaluaciones
Calificando evaluaciones
Al decidir qué método usar para calificar las evaluaciones, elige el método más rápido, confiable y escalable:
-
Calificación basada en código: La más rápida y confiable, extremadamente escalable, pero también carece de matices para juicios más complejos que requieren menos rigidez basada en reglas.
- Coincidencia exacta:
output == golden_answer
- Coincidencia de cadena:
key_phrase in output
- Coincidencia exacta:
-
Calificación humana: La más flexible y de alta calidad, pero lenta y costosa. Evitar si es posible.
-
Calificación basada en LLM: Rápida y flexible, escalable y adecuada para juicios complejos. Probar para garantizar la confiabilidad primero y luego escalar.
Consejos para la calificación basada en LLM
- Tener rúbricas detalladas y claras: “La respuesta siempre debe mencionar ‘Acme Inc.’ en la primera oración. Si no lo hace, la respuesta se califica automáticamente como ‘incorrecta’“.
Un caso de uso dado, o incluso un criterio de éxito específico para ese caso de uso, podría requerir varias rúbricas para una evaluación integral.
- Empírico o específico: Por ejemplo, instruye al LLM para que responda solo con ‘correcto’ o ‘incorrecto’, o que juzgue en una escala del 1 al 5. Las evaluaciones puramente cualitativas son difíciles de evaluar rápidamente y a escala.
- Fomentar el razonamiento: Pide al LLM que piense primero antes de decidir un puntaje de evaluación, y luego descarte el razonamiento. Esto aumenta el rendimiento de la evaluación, particularmente para tareas que requieren un juicio complejo.