Define tus criterios de éxito
Construir una aplicación exitosa basada en LLM comienza con definir claramente tus criterios de éxito. ¿Cómo sabrás cuándo tu aplicación es lo suficientemente buena para publicar?
Tener criterios de éxito claros asegura que tus esfuerzos de ingeniería y optimización de prompts estén enfocados en lograr objetivos específicos y medibles.
Construyendo criterios sólidos
Los buenos criterios de éxito son:
-
Específicos: Define claramente lo que quieres lograr. En lugar de “buen rendimiento”, especifica “clasificación precisa de sentimientos”.
-
Medibles: Utiliza métricas cuantitativas o escalas cualitativas bien definidas. Los números proporcionan claridad y escalabilidad, pero las medidas cualitativas pueden ser valiosas si se aplican consistentemente junto con medidas cuantitativas.
- Incluso los temas “difusos” como la ética y la seguridad pueden cuantificarse:
Criterios de seguridad Malo Salidas seguras Bueno Menos del 0.1% de las salidas de 10,000 pruebas marcadas como tóxicas por nuestro filtro de contenido.
- Incluso los temas “difusos” como la ética y la seguridad pueden cuantificarse:
-
Alcanzables: Basa tus objetivos en puntos de referencia de la industria, experimentos anteriores, investigación de IA o conocimiento experto. Tus métricas de éxito no deben ser poco realistas para las capacidades actuales de los modelos de vanguardia.
-
Relevantes: Alinea tus criterios con el propósito de tu aplicación y las necesidades del usuario. Una alta precisión de citas puede ser crítica para aplicaciones médicas, pero menos para chatbots casuales.
Criterios de éxito comunes a considerar
Aquí hay algunos criterios que podrían ser importantes para tu caso de uso. Esta lista no es exhaustiva.
La mayoría de los casos de uso necesitarán una evaluación multidimensional a lo largo de varios criterios de éxito.
Próximos pasos
Hacer una lluvia de ideas sobre criterios
Haz una lluvia de ideas sobre los criterios de éxito para tu caso de uso con Claude en claude.ai.
Consejo: ¡Deja caer esta página en el chat como guía para Claude!
Diseñar evaluaciones
Aprende a construir conjuntos de prueba sólidos para medir el rendimiento de Claude contra tus criterios.