Después de definir tus criterios de éxito, el siguiente paso es diseñar evaluaciones para medir el rendimiento del LLM frente a esos criterios. Esta es una parte vital del ciclo de ingeniería de prompts.

Esta guía se centra en cómo desarrollar tus casos de prueba.

Construyendo evaluaciones y casos de prueba

Principios de diseño de evaluaciones

  1. Sé específico para cada tarea: Diseña evaluaciones que reflejen la distribución de tus tareas en el mundo real. ¡No olvides considerar los casos extremos!
  2. Automatiza cuando sea posible: Estructura las preguntas para permitir una calificación automatizada (por ejemplo, opción múltiple, coincidencia de cadenas, calificación por código, calificación por LLM).
  3. Prioriza el volumen sobre la calidad: Más preguntas con calificación automatizada de señal ligeramente inferior es mejor que menos preguntas con evaluaciones manuales de alta calidad calificadas por humanos.

Ejemplos de evaluaciones

¡Escribir cientos de casos de prueba puede ser difícil de hacer manualmente! Pide ayuda a Claude para generar más a partir de un conjunto base de casos de prueba de ejemplo.
Si no sabes qué métodos de evaluación podrían ser útiles para evaluar tus criterios de éxito, ¡también puedes hacer una lluvia de ideas con Claude!

Calificación de evaluaciones

Al decidir qué método usar para calificar las evaluaciones, elige el método más rápido, más confiable y más escalable:

  1. Calificación basada en código: La más rápida y confiable, extremadamente escalable, pero también carece de matices para juicios más complejos que requieren menos rigidez basada en reglas.

    • Coincidencia exacta: output == golden_answer
    • Coincidencia de cadena: key_phrase in output
  2. Calificación humana: La más flexible y de alta calidad, pero lenta y costosa. Evítala si es posible.

  3. Calificación basada en LLM: Rápida y flexible, escalable y adecuada para juicios complejos. Prueba primero para asegurar la fiabilidad y luego escala.

Consejos para la calificación basada en LLM

  • Ten rúbricas detalladas y claras: “La respuesta siempre debe mencionar ‘Acme Inc.’ en la primera frase. Si no lo hace, la respuesta se califica automáticamente como ‘incorrecta’.”
    Un caso de uso determinado, o incluso un criterio de éxito específico para ese caso de uso, podría requerir varias rúbricas para una evaluación holística.
  • Empírica o específica: Por ejemplo, instruye al LLM para que produzca solo ‘correcto’ o ‘incorrecto’, o para que juzgue en una escala del 1 al 5. Las evaluaciones puramente cualitativas son difíciles de evaluar rápidamente y a escala.
  • Fomenta el razonamiento: Pide al LLM que piense primero antes de decidir una puntuación de evaluación, y luego descarta el razonamiento. Esto aumenta el rendimiento de la evaluación, particularmente para tareas que requieren un juicio complejo.

Próximos pasos