Usando la Herramienta de Evaluación

Accediendo a la Función de Evaluación

Para comenzar con la herramienta de Evaluación:

Abre la Consola de Anthropic y navega al editor de prompts.
Después de componer tu prompt, busca la pestaña ‘Evaluate’ en la parte superior de la pantalla.

Asegúrate de que tu prompt incluya al menos 1-2 variables dinámicas usando la sintaxis de llaves dobles: {{variable}}. Esto es requerido para crear conjuntos de prueba de evaluación.

Generando Prompts

La Consola ofrece un generador de prompts integrado impulsado por Claude Opus 4.1:

Haz clic en 'Generate Prompt'

Hacer clic en la herramienta auxiliar ‘Generate Prompt’ abrirá un modal que te permite ingresar la información de tu tarea.

Describe tu tarea

Describe tu tarea deseada (por ejemplo, “Clasificar solicitudes de soporte al cliente entrantes”) con tanto o tan poco detalle como desees. Mientras más contexto incluyas, más puede Claude adaptar su prompt generado a tus necesidades específicas.

Genera tu prompt

Hacer clic en el botón naranja ‘Generate Prompt’ en la parte inferior hará que Claude genere un prompt de alta calidad para ti. Luego puedes mejorar aún más esos prompts usando la pantalla de Evaluación en la Consola.

Esta función hace más fácil crear prompts con la sintaxis de variables apropiada para la evaluación.

Creando Casos de Prueba

Cuando accedes a la pantalla de Evaluación, tienes varias opciones para crear casos de prueba:

Haz clic en el botón ’+ Add Row’ en la parte inferior izquierda para agregar manualmente un caso.
Usa la función ‘Generate Test Case’ para que Claude genere automáticamente casos de prueba para ti.
Importa casos de prueba desde un archivo CSV.

Para usar la función ‘Generate Test Case’:

Haz clic en 'Generate Test Case'

Claude generará casos de prueba para ti, una fila a la vez por cada vez que hagas clic en el botón.

Edita la lógica de generación (opcional)

También puedes editar la lógica de generación de casos de prueba haciendo clic en el menú desplegable de flecha a la derecha del botón ‘Generate Test Case’, luego en ‘Show generation logic’ en la parte superior de la ventana de Variables que aparece. Es posible que tengas que hacer clic en `Generate’ en la parte superior derecha de esta ventana para poblar la lógica de generación inicial.Editar esto te permite personalizar y ajustar finamente los casos de prueba que Claude genera con mayor precisión y especificidad.

Aquí hay un ejemplo de una pantalla de Evaluación poblada con varios casos de prueba:

Si actualizas tu texto de prompt original, puedes volver a ejecutar toda la suite de evaluación contra el nuevo prompt para ver cómo los cambios afectan el rendimiento en todos los casos de prueba.

Consejos para una Evaluación Efectiva

Estructura de Prompt para Evaluación

Para aprovechar al máximo la herramienta de Evaluación, estructura tus prompts con formatos claros de entrada y salida. Por ejemplo:

En esta tarea, generarás una historia linda de una oración que incorpore dos elementos: un color y un sonido.
El color a incluir en la historia es:
<color>
{{COLOR}}
</color>
El sonido a incluir en la historia es:
<sound>
{{SOUND}}
</sound>
Aquí están los pasos para generar la historia:
1. Piensa en un objeto, animal o escena que esté comúnmente asociado con el color proporcionado. Por ejemplo, si el color es "azul", podrías pensar en el cielo, el océano o un pájaro azul.
2. Imagina una acción simple, evento o escena que involucre el objeto/animal/escena coloreado que identificaste y el sonido proporcionado. Por ejemplo, si el color es "azul" y el sonido es "silbido", podrías imaginar un pájaro azul silbando una melodía.
3. Describe la acción, evento o escena que imaginaste en una sola oración concisa. Enfócate en hacer la oración linda, evocativa e imaginativa. Por ejemplo: "Un alegre pájaro azul silbó una melodía alegre mientras se elevaba por el cielo azul."
Por favor mantén tu historia en solo una oración. Apunta a hacer esa oración tan encantadora y atractiva como sea posible mientras incorporas naturalmente el color y sonido dados.
Escribe tu historia completa de una oración dentro de etiquetas <story>.

Esta estructura hace fácil variar las entradas ({{COLOR}} y {{SOUND}}) y evaluar las salidas consistentemente.

Usa la herramienta auxiliar ‘Generate a prompt’ en la Consola para crear rápidamente prompts con la sintaxis de variables apropiada para la evaluación.

Entendiendo y comparando resultados

La herramienta de Evaluación ofrece varias funciones para ayudarte a refinar tus prompts:

Comparación lado a lado: Compara las salidas de dos o más prompts para ver rápidamente el impacto de tus cambios.
Calificación de calidad: Califica la calidad de respuesta en una escala de 5 puntos para rastrear mejoras en la calidad de respuesta por prompt.
Versionado de prompts: Crea nuevas versiones de tu prompt y vuelve a ejecutar la suite de pruebas para iterar rápidamente y mejorar los resultados.

Al revisar resultados a través de casos de prueba y comparar diferentes versiones de prompts, puedes detectar patrones y hacer ajustes informados a tu prompt de manera más eficiente. ¡Comienza a evaluar tus prompts hoy para construir aplicaciones de IA más robustas con Claude!

Primeros pasos

Modelos y precios

Aprende sobre Claude

Capacidades

Herramientas

Protocolo de Contexto del Modelo (MCP)

Casos de uso

Ingeniería de prompts

Probar y evaluar

Fortalecer las barreras de protección

Centro legal

Usando la Herramienta de Evaluación

Accediendo a la Función de Evaluación

Generando Prompts

Creando Casos de Prueba

Consejos para una Evaluación Efectiva

Entendiendo y comparando resultados

Primeros pasos

Modelos y precios

Aprende sobre Claude

Capacidades

Herramientas

Protocolo de Contexto del Modelo (MCP)

Casos de uso

Ingeniería de prompts

Probar y evaluar

Fortalecer las barreras de protección

Centro legal

​Accediendo a la Función de Evaluación

​Generando Prompts

​Creando Casos de Prueba

​Consejos para una Evaluación Efectiva

​Entendiendo y comparando resultados

Accediendo a la Función de Evaluación

Generando Prompts

Creando Casos de Prueba

Consejos para una Evaluación Efectiva

Entendiendo y comparando resultados