Acceso a la función de evaluación

Para comenzar con la herramienta de Evaluación:

  1. Abre la Consola de Anthropic y navega al editor de prompts.
  2. Después de redactar tu prompt, busca la pestaña ‘Evaluate’ en la parte superior de la pantalla.

Asegúrate de que tu prompt incluya al menos 1-2 variables dinámicas usando la sintaxis de doble llave: {{variable}}. Esto es necesario para crear conjuntos de prueba de evaluación.

Generación de prompts

La Consola ofrece un generador de prompts integrado impulsado por Claude Opus 4:

1

Haz clic en 'Generate Prompt'

Al hacer clic en la herramienta auxiliar ‘Generate Prompt’ se abrirá un modal que te permite ingresar la información de tu tarea.

2

Describe tu tarea

Describe la tarea deseada (por ejemplo, “Clasificar solicitudes entrantes de atención al cliente”) con tanto o tan poco detalle como desees. Cuanto más contexto incluyas, más podrá Claude adaptar su prompt generado a tus necesidades específicas.

3

Genera tu prompt

Al hacer clic en el botón naranja ‘Generate Prompt’ en la parte inferior, Claude generará un prompt de alta calidad para ti. Luego puedes mejorar aún más esos prompts utilizando la pantalla de Evaluación en la Consola.

Esta función facilita la creación de prompts con la sintaxis de variables adecuada para la evaluación.

Creación de casos de prueba

Cuando accedes a la pantalla de Evaluación, tienes varias opciones para crear casos de prueba:

  1. Haz clic en el botón ’+ Add Row’ en la parte inferior izquierda para agregar manualmente un caso.
  2. Utiliza la función ‘Generate Test Case’ para que Claude genere automáticamente casos de prueba para ti.
  3. Importa casos de prueba desde un archivo CSV.

Para usar la función ‘Generate Test Case’:

1

Haz clic en 'Generate Test Case'

Claude generará casos de prueba para ti, una fila a la vez por cada vez que hagas clic en el botón.

2

Edita la lógica de generación (opcional)

También puedes editar la lógica de generación de casos de prueba haciendo clic en la flecha desplegable a la derecha del botón ‘Generate Test Case’, luego en ‘Show generation logic’ en la parte superior de la ventana de Variables que aparece. Es posible que tengas que hacer clic en `Generate’ en la parte superior derecha de esta ventana para generar la lógica de generación inicial.

Editarla te permite personalizar y ajustar con mayor precisión y especificidad los casos de prueba que Claude genera.

Aquí hay un ejemplo de una pantalla de Evaluación poblada con varios casos de prueba:

Si actualizas el texto de tu prompt original, puedes volver a ejecutar todo el conjunto de evaluación con el nuevo prompt para ver cómo los cambios afectan el rendimiento en todos los casos de prueba.

Consejos para una evaluación efectiva

Utiliza la herramienta auxiliar ‘Generate a prompt’ en la Consola para crear rápidamente prompts con la sintaxis de variables adecuada para la evaluación.

Comprensión y comparación de resultados

La herramienta de Evaluación ofrece varias funciones para ayudarte a refinar tus prompts:

  1. Comparación lado a lado: Compara las salidas de dos o más prompts para ver rápidamente el impacto de tus cambios.
  2. Calificación de calidad: Califica la calidad de respuesta en una escala de 5 puntos para seguir las mejoras en la calidad de respuesta por prompt.
  3. Versionado de prompts: Crea nuevas versiones de tu prompt y vuelve a ejecutar el conjunto de pruebas para iterar y mejorar los resultados rápidamente.

Al revisar los resultados en los casos de prueba y comparar diferentes versiones de prompts, puedes identificar patrones y realizar ajustes informados a tu prompt de manera más eficiente.

¡Comienza a evaluar tus prompts hoy para construir aplicaciones de IA más robustas con Claude!