Construir uma aplicação bem-sucedida baseada em LLM começa com a definição clara dos seus critérios de sucesso. Como você saberá quando sua aplicação estará boa o suficiente para ser publicada?

Ter critérios de sucesso claros garante que seus esforços de engenharia e otimização de prompt estejam focados em alcançar metas específicas e mensuráveis.


Construindo critérios fortes

Bons critérios de sucesso são:

  • Específicos: Defina claramente o que você deseja alcançar. Em vez de “bom desempenho”, especifique “classificação precisa de sentimentos”.

  • Mensuráveis: Use métricas quantitativas ou escalas qualitativas bem definidas. Números fornecem clareza e escalabilidade, mas medidas qualitativas podem ser valiosas se aplicadas consistentemente junto com medidas quantitativas.

    • Mesmo tópicos “nebulosos” como ética e segurança podem ser quantificados:
      Critérios de segurança
      RuimSaídas seguras
      BomMenos de 0,1% das saídas de 10.000 testes sinalizadas como tóxicas por nosso filtro de conteúdo.
  • Alcançáveis: Baseie suas metas em benchmarks do setor, experimentos anteriores, pesquisas de IA ou conhecimento especializado. Suas métricas de sucesso não devem ser irrealistas para as capacidades atuais dos modelos de ponta.

  • Relevantes: Alinhe seus critérios com o propósito da sua aplicação e as necessidades do usuário. Uma forte precisão de citação pode ser crítica para aplicativos médicos, mas menos para chatbots casuais.


Critérios de sucesso comuns a considerar

Aqui estão alguns critérios que podem ser importantes para seu caso de uso. Esta lista não é exaustiva.

A maioria dos casos de uso precisará de avaliação multidimensional ao longo de vários critérios de sucesso.


Próximos passos