Consulta nuestro libro de recetas de evaluaciones para ir directamente a los ejemplos de código.

Optimizar Claude para brindarte la mayor precisión posible en una tarea es una ciencia empírica y un proceso de mejora continua. Ya sea que estés tratando de determinar si un cambio en tu prompt ha mejorado el rendimiento de Claude, probando diferentes modelos de Claude entre sí o evaluando si tu caso de uso está listo para producción, un sistema de evaluación bien diseñado es fundamental para el éxito.

En esta guía, te guiaremos a través del ciclo de vida del desarrollo de prompts, los diferentes tipos de evaluaciones (evals) que puedes usar, sus pros y contras, y proporcionaremos algunas pautas sobre cómo elegir la mejor evaluación para tu caso de uso.


Cómo usar las evaluaciones

Las evaluaciones deben ser una parte integral de todo tu ciclo de vida de producción cuando trabajas con LLM. Proporcionan una medida cuantitativa del rendimiento que te permite realizar un seguimiento del progreso, identificar problemas y tomar decisiones basadas en datos. Así es como las evaluaciones encajan en las diferentes etapas del ciclo de vida de producción:

  1. Ingeniería de prompts: El proceso de ingeniería de prompts debe comenzar con la construcción de un conjunto riguroso de evaluaciones, no con la escritura de un prompt. Estas evaluaciones servirán como base para medir la efectividad de tus prompts y te ayudarán a iterarlos y mejorarlos con el tiempo.
  2. Desarrollo: A medida que desarrollas tu aplicación o flujo de trabajo con Claude, utiliza las evaluaciones que diseñaste durante la fase de ingeniería de prompts para probar regularmente el rendimiento de tus prompts, incluso si los prompts en sí no han cambiado. Las partes del flujo de trabajo fuera y posteriores al prompt pueden afectar inadvertidamente el rendimiento del modelo. Esto te ayudará a detectar cualquier problema temprano y garantizar que tus flujos de trabajo se estén desempeñando según lo esperado.
  3. Pruebas finales: Antes de implementar tu aplicación o flujo de trabajo en producción, crea al menos un conjunto adicional de evaluaciones que no hayas utilizado durante la fase de desarrollo. Este conjunto de evaluaciones retenidas te ayudará a evaluar el verdadero rendimiento de tus prompts y garantizar que no se hayan sobreajustado a las evaluaciones utilizadas durante el desarrollo.
  4. Producción: Una vez que tu aplicación o flujo de trabajo esté en producción, continúa usando evaluaciones para monitorear el rendimiento e identificar cualquier problema potencial. También puedes usar evaluaciones para comparar el rendimiento de diferentes modelos de Claude o versiones de tus prompts para tomar decisiones basadas en datos sobre actualizaciones y mejoras.

Al incorporar evaluaciones a lo largo del ciclo de vida de producción, puedes asegurarte de que tus prompts se estén desempeñando de manera óptima y que tu aplicación o flujo de trabajo esté entregando los mejores resultados posibles.


Partes de una evaluación

Las evaluaciones generalmente tienen cuatro partes:

  1. Prompt de entrada: El prompt que se alimenta al modelo. Claude genera una compleción (también conocida como salida) basada en este prompt. A menudo, al diseñar evaluaciones, la columna de entrada contendrá un conjunto de entradas variables que se alimentan a una plantilla de prompt en el momento de la prueba.
  2. Salida: El texto generado al ejecutar el prompt de entrada a través del modelo que se está evaluando.
  3. Respuesta dorada: La respuesta correcta con la que se compara la salida del modelo. La respuesta dorada podría ser una coincidencia exacta obligatoria o un ejemplo de una respuesta perfecta destinada a dar a un evaluador (humano o LLM) un punto de comparación para la puntuación.
  4. Puntuación: Un valor numérico, generado por uno de los métodos de calificación discutidos a continuación, que representa qué tan bien se desempeñó el modelo en la pregunta.

Métodos de calificación de evaluaciones

Hay dos aspectos de las evaluaciones que pueden consumir mucho tiempo y ser costosos: escribir las preguntas y los pares de respuestas doradas, y calificar. Si bien escribir preguntas y respuestas doradas suele ser un costo fijo único, la calificación es un costo en el que incurrirás cada vez que vuelvas a ejecutar tu evaluación, lo que probablemente harás con frecuencia. Como resultado, construir evaluaciones que puedan calificarse de manera rápida y económica debe estar en el centro de tus decisiones de diseño.

Hay tres formas comunes de calificar las evaluaciones:

  1. Calificación basada en código: Esto implica usar código estándar (principalmente coincidencia de cadenas y expresiones regulares) para calificar las salidas del modelo. Las versiones comunes incluyen verificar una coincidencia exacta con una respuesta o verificar que una cadena contenga algunas frases clave. Este es el mejor método de calificación si puedes diseñar una evaluación que lo permita, ya que es rápido y altamente confiable. Sin embargo, muchas evaluaciones no permiten este estilo de calificación.
  2. Calificación humana: Un humano mira la respuesta generada por el modelo, la compara con la respuesta dorada y asigna una puntuación. Este es el método de calificación más capaz, ya que se puede usar en casi cualquier tarea, pero también es increíblemente lento y costoso, especialmente si has construido una evaluación grande. En lo posible, debes tratar de evitar diseñar evaluaciones que requieran calificación humana.
  3. Calificación basada en modelos: Claude es altamente capaz de calificarse a sí mismo y puede usarse para calificar una amplia variedad de tareas que históricamente podrían haber requerido humanos, como el análisis del tono en la escritura creativa o la precisión en las respuestas a preguntas de forma libre. Puedes hacer esto escribiendo un prompt de calificador para Claude.

Tipos de evaluaciones

Hay varios tipos de evaluaciones que puedes usar para medir el rendimiento de Claude en una tarea. Cada tipo tiene sus propias fortalezas y debilidades.

Tipo de evaluaciónDescripciónProsContras
Pregunta de opción múltiple (MCQ)Preguntas de forma cerrada con múltiples respuestas, al menos una de las cuales es correcta- Fácil de automatizar- Evalúa el conocimiento general de un tema- Clave de respuesta clara- Fácil saber cómo se ve lo preciso- Posible filtración de entrenamiento si la prueba es pública- Limitado para evaluar tareas más complejas o abiertas
Coincidencia exacta (EM)Verifica si la respuesta del modelo es exactamente la misma cadena que la respuesta correcta- Fácil de automatizar- Alta precisión en la evaluación de conocimientos o tareas específicas- Fácil saber cómo se ve lo preciso- Limitado para evaluar tareas más complejas o abiertas- Puede no capturar variaciones en las respuestas correctas
Coincidencia de cadenaVerifica si la respuesta del modelo contiene la cadena de respuesta- Fácil de automatizar- Evalúa la presencia de información específica en la salida del modelo- Puede no capturar el contexto completo o el significado de la respuesta del modelo- Puede resultar en falsos positivos o negativos
Respuesta abierta (OA)Preguntas abiertas que pueden tener múltiples soluciones posibles o requieren procesos de varios pasos para evaluar- Excelente para evaluar conocimientos avanzados, conocimientos tácitos o rendimiento cualitativo abierto- Puede ser calificado por humanos o modelos- Más difícil de automatizar- Requiere una rúbrica clara para calificar- La calificación basada en modelos puede ser menos precisa que la calificación humana

Mejores prácticas para diseñar evaluaciones

Al diseñar evaluaciones para tu caso de uso específico, ten en cuenta las siguientes mejores prácticas:

  1. Evaluaciones específicas de la tarea: Haz que tus evaluaciones sean específicas para tu tarea siempre que sea posible, y trata de que la distribución en tu evaluación represente la distribución de la vida real de preguntas y dificultades de las preguntas.
  2. Prueba la calificación basada en modelos: La única forma de saber si un calificador basado en modelos puede hacer un buen trabajo calificando tu tarea es probarlo y leer algunas muestras para ver si tu tarea es un buen candidato.
  3. Automatiza cuando sea posible: A menudo, un diseño inteligente puede hacer que una evaluación sea automatizable. Trata de estructurar las preguntas de una manera que permita la calificación automatizada mientras te mantienes fiel a la tarea. Reformatear las preguntas en opción múltiple es una táctica común.
  4. Prioriza el volumen sobre la calidad: En general, prefiere un mayor volumen y una menor calidad de preguntas en lugar de un volumen muy bajo con alta calidad.
  5. Utiliza el libro de recetas de evaluaciones: Nuestro libro de recetas de evaluaciones proporciona ejemplos implementados de varios tipos de evaluaciones calificadas por humanos y modelos, incluida orientación y código que puedes copiar.

Al seguir estas mejores prácticas y seleccionar el tipo de evaluación adecuado para tu caso de uso, puedes medir eficazmente el rendimiento de Claude y tomar decisiones basadas en datos para mejorar tus prompts y flujos de trabajo.