Confira nosso livro de receitas de avaliações para ir direto para exemplos de código.

Otimizar o Claude para fornecer a maior precisão possível em uma tarefa é uma ciência empírica e um processo de melhoria contínua. Se você está tentando determinar se uma alteração em seu prompt melhorou o desempenho do Claude, testando diferentes modelos do Claude entre si ou avaliando se seu caso de uso está pronto para produção, um sistema de avaliação bem projetado é fundamental para o sucesso.

Neste guia, vamos orientá-lo sobre o ciclo de vida do desenvolvimento de prompts, os diferentes tipos de avaliações (evals) que você pode usar, seus prós e contras, e fornecer algumas diretrizes sobre como escolher a melhor avaliação para o seu caso de uso.


Como usar as avaliações

As avaliações devem ser uma parte integrante de todo o seu ciclo de vida de produção ao trabalhar com LLMs. Elas fornecem uma medida quantitativa de desempenho que permite acompanhar o progresso, identificar problemas e tomar decisões baseadas em dados. Veja como as avaliações se encaixam nas diferentes etapas do ciclo de vida da produção:

  1. Engenharia de prompts: O processo de engenharia de prompts deve começar com a construção de um conjunto rigoroso de avaliações, não com a escrita de um prompt. Essas avaliações servirão como base para medir a eficácia de seus prompts e ajudá-lo a iterá-los e aprimorá-los ao longo do tempo.
  2. Desenvolvimento: À medida que você desenvolve seu aplicativo ou fluxo de trabalho com o Claude, use as avaliações que você projetou durante a fase de engenharia de prompts para testar regularmente o desempenho de seus prompts, mesmo que os prompts em si não tenham mudado. Partes do fluxo de trabalho fora e a jusante do prompt podem afetar inadvertidamente o desempenho do modelo. Isso ajudará você a identificar quaisquer problemas no início e garantir que seus fluxos de trabalho estejam funcionando conforme o esperado.
  3. Teste final: Antes de implantar seu aplicativo ou fluxo de trabalho em produção, crie pelo menos um conjunto adicional de avaliações que você não usou durante a fase de desenvolvimento. Esse conjunto retido de avaliações ajudará você a avaliar o verdadeiro desempenho de seus prompts e garantir que eles não tenham sido superajustados às avaliações usadas durante o desenvolvimento.
  4. Produção: Depois que seu aplicativo ou fluxo de trabalho estiver em produção, continue usando as avaliações para monitorar o desempenho e identificar quaisquer problemas potenciais. Você também pode usar as avaliações para comparar o desempenho de diferentes modelos do Claude ou versões de seus prompts para tomar decisões baseadas em dados sobre atualizações e melhorias.

Ao incorporar avaliações ao longo do ciclo de vida da produção, você pode garantir que seus prompts estejam tendo um desempenho ideal e que seu aplicativo ou fluxo de trabalho esteja fornecendo os melhores resultados possíveis.


Partes de uma avaliação

As avaliações geralmente têm quatro partes:

  1. Prompt de entrada: O prompt que é alimentado no modelo. O Claude gera uma conclusão (também conhecida como saída) com base nesse prompt. Frequentemente, ao projetar avaliações, a coluna de entrada conterá um conjunto de entradas variáveis que são alimentadas em um modelo de prompt no momento do teste.
  2. Saída: O texto gerado ao executar o prompt de entrada através do modelo que está sendo avaliado.
  3. Resposta de ouro: A resposta correta com a qual a saída do modelo é comparada. A resposta de ouro pode ser uma correspondência exata obrigatória ou um exemplo de uma resposta perfeita destinada a fornecer um ponto de comparação para um avaliador (humano ou LLM) para pontuação.
  4. Pontuação: Um valor numérico, gerado por um dos métodos de pontuação discutidos abaixo, que representa o quão bem o modelo se saiu na questão.

Métodos de pontuação de avaliação

Existem dois aspectos das avaliações que podem ser demorados e caros: escrever os pares de perguntas e respostas de ouro e pontuar. Embora escrever perguntas e respostas de ouro seja normalmente um custo fixo único, a pontuação é um custo que você incorrerá toda vez que executar novamente sua avaliação, o que provavelmente fará com frequência. Como resultado, construir avaliações que possam ser pontuadas de forma rápida e barata deve estar no centro de suas escolhas de design.

Existem três maneiras comuns de pontuar avaliações:

  1. Pontuação baseada em código: Isso envolve usar código padrão (principalmente correspondência de strings e expressões regulares) para pontuar as saídas do modelo. As versões comuns incluem verificar uma correspondência exata com uma resposta ou verificar se uma string contém alguma(s) frase(s)-chave. Esse é o melhor método de pontuação se você puder projetar uma avaliação que permita isso, pois é rápido e altamente confiável. No entanto, muitas avaliações não permitem esse estilo de pontuação.
  2. Pontuação humana: Um humano analisa a resposta gerada pelo modelo, compara-a com a resposta de ouro e atribui uma pontuação. Esse é o método de pontuação mais capaz, pois pode ser usado em quase qualquer tarefa, mas também é incrivelmente lento e caro, especialmente se você construiu uma grande avaliação. Você deve tentar evitar projetar avaliações que exijam pontuação humana, se possível.
  3. Pontuação baseada em modelo: O Claude é altamente capaz de se autoavaliar e pode ser usado para pontuar uma ampla variedade de tarefas que historicamente podem ter exigido humanos, como análise de tom em escrita criativa ou precisão em respostas a perguntas de forma livre. Você pode fazer isso escrevendo um prompt de pontuação para o Claude.

Tipos de avaliações

Existem vários tipos de avaliações que você pode usar para medir o desempenho do Claude em uma tarefa. Cada tipo tem seus próprios pontos fortes e fracos.

Tipo de AvaliaçãoDescriçãoPrósContras
Questão de múltipla escolha (MCQ)Questões de forma fechada com várias respostas, sendo pelo menos uma delas correta- Fácil de automatizar- Avalia o conhecimento geral de um tópico- Chave de resposta clara- Fácil saber como é a precisão- Possível vazamento de treinamento se o teste for público- Limitado na avaliação de tarefas mais complexas ou abertas
Correspondência exata (EM)Verifica se a resposta do modelo é exatamente a mesma string da resposta correta- Fácil de automatizar- Alta precisão na avaliação de conhecimentos ou tarefas específicas- Fácil saber como é a precisão- Limitado na avaliação de tarefas mais complexas ou abertas- Pode não capturar variações nas respostas corretas
Correspondência de stringVerifica se a resposta do modelo contém a string de resposta- Fácil de automatizar- Avalia a presença de informações específicas na saída do modelo- Pode não capturar o contexto completo ou o significado da resposta do modelo- Pode resultar em falsos positivos ou negativos
Resposta aberta (OA)Questões abertas que podem ter várias soluções possíveis ou exigir processos de várias etapas para avaliar- Ótimo para avaliar conhecimento avançado, conhecimento tácito ou desempenho qualitativo aberto- Pode ser pontuado por humanos ou modelos- Mais difícil de automatizar- Requer uma rubrica clara para pontuação- A pontuação baseada em modelo pode ser menos precisa do que a pontuação humana

Melhores práticas para projetar avaliações

Ao projetar avaliações para seu caso de uso específico, tenha em mente as seguintes melhores práticas:

  1. Avaliações específicas da tarefa: Faça suas avaliações específicas para sua tarefa sempre que possível e tente fazer com que a distribuição em sua avaliação represente a distribuição real de perguntas e dificuldades das perguntas.
  2. Teste a pontuação baseada em modelo: A única maneira de saber se um pontuador baseado em modelo pode fazer um bom trabalho pontuando sua tarefa é experimentá-lo e ler algumas amostras para ver se sua tarefa é uma boa candidata.
  3. Automatize quando possível: Muitas vezes, um design inteligente pode tornar uma avaliação automatizável. Tente estruturar as perguntas de uma maneira que permita a pontuação automatizada, mantendo-se fiel à tarefa. Reformatar as perguntas em múltipla escolha é uma tática comum.
  4. Priorize o volume sobre a qualidade: Em geral, prefira um volume maior e uma qualidade menor de perguntas em vez de um volume muito baixo com alta qualidade.
  5. Use o livro de receitas de avaliações: Nosso livro de receitas de avaliações fornece exemplos implementados de vários tipos de avaliações pontuadas por humanos e modelos, incluindo orientação e código que você pode copiar.

Ao seguir essas melhores práticas e selecionar o tipo de avaliação apropriado para seu caso de uso, você pode medir efetivamente o desempenho do Claude e tomar decisões baseadas em dados para melhorar seus prompts e fluxos de trabalho.