Avaliações empíricas de desempenho
Confira nosso livro de receitas de avaliações para ir direto para exemplos de código.
Otimizar o Claude para fornecer a maior precisão possível em uma tarefa é uma ciência empírica e um processo de melhoria contínua. Se você está tentando determinar se uma alteração em seu prompt melhorou o desempenho do Claude, testando diferentes modelos do Claude entre si ou avaliando se seu caso de uso está pronto para produção, um sistema de avaliação bem projetado é fundamental para o sucesso.
Neste guia, vamos orientá-lo sobre o ciclo de vida do desenvolvimento de prompts, os diferentes tipos de avaliações (evals) que você pode usar, seus prós e contras, e fornecer algumas diretrizes sobre como escolher a melhor avaliação para o seu caso de uso.
Como usar as avaliações
As avaliações devem ser uma parte integrante de todo o seu ciclo de vida de produção ao trabalhar com LLMs. Elas fornecem uma medida quantitativa de desempenho que permite acompanhar o progresso, identificar problemas e tomar decisões baseadas em dados. Veja como as avaliações se encaixam nas diferentes etapas do ciclo de vida da produção:
- Engenharia de prompts: O processo de engenharia de prompts deve começar com a construção de um conjunto rigoroso de avaliações, não com a escrita de um prompt. Essas avaliações servirão como base para medir a eficácia de seus prompts e ajudá-lo a iterá-los e aprimorá-los ao longo do tempo.
- Desenvolvimento: À medida que você desenvolve seu aplicativo ou fluxo de trabalho com o Claude, use as avaliações que você projetou durante a fase de engenharia de prompts para testar regularmente o desempenho de seus prompts, mesmo que os prompts em si não tenham mudado. Partes do fluxo de trabalho fora e a jusante do prompt podem afetar inadvertidamente o desempenho do modelo. Isso ajudará você a identificar quaisquer problemas no início e garantir que seus fluxos de trabalho estejam funcionando conforme o esperado.
- Teste final: Antes de implantar seu aplicativo ou fluxo de trabalho em produção, crie pelo menos um conjunto adicional de avaliações que você não usou durante a fase de desenvolvimento. Esse conjunto retido de avaliações ajudará você a avaliar o verdadeiro desempenho de seus prompts e garantir que eles não tenham sido superajustados às avaliações usadas durante o desenvolvimento.
- Produção: Depois que seu aplicativo ou fluxo de trabalho estiver em produção, continue usando as avaliações para monitorar o desempenho e identificar quaisquer problemas potenciais. Você também pode usar as avaliações para comparar o desempenho de diferentes modelos do Claude ou versões de seus prompts para tomar decisões baseadas em dados sobre atualizações e melhorias.
Ao incorporar avaliações ao longo do ciclo de vida da produção, você pode garantir que seus prompts estejam tendo um desempenho ideal e que seu aplicativo ou fluxo de trabalho esteja fornecendo os melhores resultados possíveis.
Partes de uma avaliação
As avaliações geralmente têm quatro partes:
- Prompt de entrada: O prompt que é alimentado no modelo. O Claude gera uma conclusão (também conhecida como saída) com base nesse prompt. Frequentemente, ao projetar avaliações, a coluna de entrada conterá um conjunto de entradas variáveis que são alimentadas em um modelo de prompt no momento do teste.
- Saída: O texto gerado ao executar o prompt de entrada através do modelo que está sendo avaliado.
- Resposta de ouro: A resposta correta com a qual a saída do modelo é comparada. A resposta de ouro pode ser uma correspondência exata obrigatória ou um exemplo de uma resposta perfeita destinada a fornecer um ponto de comparação para um avaliador (humano ou LLM) para pontuação.
- Pontuação: Um valor numérico, gerado por um dos métodos de pontuação discutidos abaixo, que representa o quão bem o modelo se saiu na questão.
Métodos de pontuação de avaliação
Existem dois aspectos das avaliações que podem ser demorados e caros: escrever os pares de perguntas e respostas de ouro e pontuar. Embora escrever perguntas e respostas de ouro seja normalmente um custo fixo único, a pontuação é um custo que você incorrerá toda vez que executar novamente sua avaliação, o que provavelmente fará com frequência. Como resultado, construir avaliações que possam ser pontuadas de forma rápida e barata deve estar no centro de suas escolhas de design.
Existem três maneiras comuns de pontuar avaliações:
- Pontuação baseada em código: Isso envolve usar código padrão (principalmente correspondência de strings e expressões regulares) para pontuar as saídas do modelo. As versões comuns incluem verificar uma correspondência exata com uma resposta ou verificar se uma string contém alguma(s) frase(s)-chave. Esse é o melhor método de pontuação se você puder projetar uma avaliação que permita isso, pois é rápido e altamente confiável. No entanto, muitas avaliações não permitem esse estilo de pontuação.
- Pontuação humana: Um humano analisa a resposta gerada pelo modelo, compara-a com a resposta de ouro e atribui uma pontuação. Esse é o método de pontuação mais capaz, pois pode ser usado em quase qualquer tarefa, mas também é incrivelmente lento e caro, especialmente se você construiu uma grande avaliação. Você deve tentar evitar projetar avaliações que exijam pontuação humana, se possível.
- Pontuação baseada em modelo: O Claude é altamente capaz de se autoavaliar e pode ser usado para pontuar uma ampla variedade de tarefas que historicamente podem ter exigido humanos, como análise de tom em escrita criativa ou precisão em respostas a perguntas de forma livre. Você pode fazer isso escrevendo um prompt de pontuação para o Claude.
Tipos de avaliações
Existem vários tipos de avaliações que você pode usar para medir o desempenho do Claude em uma tarefa. Cada tipo tem seus próprios pontos fortes e fracos.
Tipo de Avaliação | Descrição | Prós | Contras |
---|---|---|---|
Questão de múltipla escolha (MCQ) | Questões de forma fechada com várias respostas, sendo pelo menos uma delas correta | - Fácil de automatizar- Avalia o conhecimento geral de um tópico- Chave de resposta clara- Fácil saber como é a precisão | - Possível vazamento de treinamento se o teste for público- Limitado na avaliação de tarefas mais complexas ou abertas |
Correspondência exata (EM) | Verifica se a resposta do modelo é exatamente a mesma string da resposta correta | - Fácil de automatizar- Alta precisão na avaliação de conhecimentos ou tarefas específicas- Fácil saber como é a precisão | - Limitado na avaliação de tarefas mais complexas ou abertas- Pode não capturar variações nas respostas corretas |
Correspondência de string | Verifica se a resposta do modelo contém a string de resposta | - Fácil de automatizar- Avalia a presença de informações específicas na saída do modelo | - Pode não capturar o contexto completo ou o significado da resposta do modelo- Pode resultar em falsos positivos ou negativos |
Resposta aberta (OA) | Questões abertas que podem ter várias soluções possíveis ou exigir processos de várias etapas para avaliar | - Ótimo para avaliar conhecimento avançado, conhecimento tácito ou desempenho qualitativo aberto- Pode ser pontuado por humanos ou modelos | - Mais difícil de automatizar- Requer uma rubrica clara para pontuação- A pontuação baseada em modelo pode ser menos precisa do que a pontuação humana |
Melhores práticas para projetar avaliações
Ao projetar avaliações para seu caso de uso específico, tenha em mente as seguintes melhores práticas:
- Avaliações específicas da tarefa: Faça suas avaliações específicas para sua tarefa sempre que possível e tente fazer com que a distribuição em sua avaliação represente a distribuição real de perguntas e dificuldades das perguntas.
- Teste a pontuação baseada em modelo: A única maneira de saber se um pontuador baseado em modelo pode fazer um bom trabalho pontuando sua tarefa é experimentá-lo e ler algumas amostras para ver se sua tarefa é uma boa candidata.
- Automatize quando possível: Muitas vezes, um design inteligente pode tornar uma avaliação automatizável. Tente estruturar as perguntas de uma maneira que permita a pontuação automatizada, mantendo-se fiel à tarefa. Reformatar as perguntas em múltipla escolha é uma tática comum.
- Priorize o volume sobre a qualidade: Em geral, prefira um volume maior e uma qualidade menor de perguntas em vez de um volume muito baixo com alta qualidade.
- Use o livro de receitas de avaliações: Nosso livro de receitas de avaliações fornece exemplos implementados de vários tipos de avaliações pontuadas por humanos e modelos, incluindo orientação e código que você pode copiar.
Ao seguir essas melhores práticas e selecionar o tipo de avaliação apropriado para seu caso de uso, você pode medir efetivamente o desempenho do Claude e tomar decisões baseadas em dados para melhorar seus prompts e fluxos de trabalho.