Janela de contexto

A “janela de contexto” refere-se à quantidade de texto que um modelo de linguagem pode olhar para trás e referenciar ao gerar um novo texto. Isso é diferente do grande corpus de dados no qual o modelo de linguagem foi treinado e, em vez disso, representa uma “memória de trabalho” para o modelo. Uma janela de contexto maior permite que o modelo entenda e responda a prompts mais complexos e longos, enquanto uma janela de contexto menor pode limitar a capacidade do modelo de lidar com prompts mais longos ou manter a coerência em conversas prolongadas.

Consulte nossa tabela de comparação de modelos para obter uma lista dos tamanhos das janelas de contexto por modelo.

Fine-tuning

Fine-tuning é o processo de treinar ainda mais um modelo de linguagem pré-treinado usando dados adicionais. Isso faz com que o modelo comece a representar e imitar os padrões e características do conjunto de dados de fine-tuning. Claude não é um modelo de linguagem básico; ele já foi ajustado para ser um assistente útil. Nossa API atualmente não oferece fine-tuning, mas pergunte ao seu contato da Anthropic se você estiver interessado em explorar essa opção. O fine-tuning pode ser útil para adaptar um modelo de linguagem a um domínio, tarefa ou estilo de escrita específico, mas requer uma consideração cuidadosa dos dados de fine-tuning e do impacto potencial no desempenho e vieses do modelo.

HHH

Esses três H’s representam os objetivos da Anthropic em garantir que Claude seja benéfico para a sociedade:

  • Uma IA helpful (útil) tentará realizar a tarefa ou responder à pergunta proposta da melhor maneira possível, fornecendo informações relevantes e úteis.
  • Uma IA honest (honesta) fornecerá informações precisas e não alucinará ou confabulará. Ela reconhecerá suas limitações e incertezas quando apropriado.
  • Uma IA harmless (inofensiva) não será ofensiva ou discriminatória e, quando solicitada a ajudar em um ato perigoso ou antiético, a IA deve recusar educadamente e explicar por que não pode cumprir.

Latência

Latência, no contexto de IA generativa e grandes modelos de linguagem, refere-se ao tempo que o modelo leva para responder a um determinado prompt. É o atraso entre o envio de um prompt e o recebimento da saída gerada. Uma latência menor indica tempos de resposta mais rápidos, o que é crucial para aplicativos em tempo real, chatbots e experiências interativas. Fatores que podem afetar a latência incluem o tamanho do modelo, recursos de hardware, condições de rede e a complexidade do prompt e da resposta gerada.

LLM

Grandes modelos de linguagem (LLMs) são modelos de linguagem de IA com muitos parâmetros que são capazes de realizar uma variedade de tarefas surpreendentemente úteis. Esses modelos são treinados em grandes quantidades de dados de texto e podem gerar texto semelhante ao humano, responder perguntas, resumir informações e muito mais. Claude é um assistente conversacional baseado em um grande modelo de linguagem que foi ajustado e treinado usando RLHF para ser mais útil, honesto e inofensivo.

Pré-treinamento

O pré-treinamento é o processo inicial de treinamento de modelos de linguagem em um grande corpus de texto não rotulado. No caso de Claude, os modelos de linguagem autorregressivos (como o modelo subjacente de Claude) são pré-treinados para prever a próxima palavra, dado o contexto anterior do texto no documento. Esses modelos pré-treinados não são inerentemente bons em responder perguntas ou seguir instruções e geralmente requerem habilidade profunda em engenharia de prompts para obter os comportamentos desejados. O fine-tuning e o RLHF são usados para refinar esses modelos pré-treinados, tornando-os mais úteis para uma ampla gama de tarefas.

RAG (Geração aumentada por recuperação)

A geração aumentada por recuperação (RAG) é uma técnica que combina a recuperação de informações com a geração de modelos de linguagem para melhorar a precisão e a relevância do texto gerado e para fundamentar melhor a resposta do modelo em evidências. No RAG, um modelo de linguagem é aumentado com uma base de conhecimento externa ou um conjunto de documentos que é passado para a janela de contexto. Os dados são recuperados em tempo de execução quando uma consulta é enviada ao modelo, embora o próprio modelo não necessariamente recupere os dados (mas pode com uso de ferramentas e uma função de recuperação). Ao gerar texto, as informações relevantes devem primeiro ser recuperadas da base de conhecimento com base no prompt de entrada e, em seguida, passadas para o modelo junto com a consulta original. O modelo usa essas informações para orientar a saída que gera. Isso permite que o modelo acesse e utilize informações além de seus dados de treinamento, reduzindo a dependência da memorização e melhorando a precisão factual do texto gerado. O RAG pode ser particularmente útil para tarefas que exigem informações atualizadas, conhecimento específico do domínio ou citação explícita de fontes. No entanto, a eficácia do RAG depende da qualidade e relevância da base de conhecimento externa e do conhecimento que é recuperado em tempo de execução.

RLHF

O Reinforcement Learning from Human Feedback (RLHF) é uma técnica usada para treinar um modelo de linguagem pré-treinado para se comportar de maneiras consistentes com as preferências humanas. Isso pode incluir ajudar o modelo a seguir instruções de maneira mais eficaz ou agir mais como um chatbot. O feedback humano consiste em classificar um conjunto de dois ou mais textos de exemplo, e o processo de aprendizado por reforço incentiva o modelo a preferir saídas semelhantes às classificadas mais alto. Claude foi treinado usando RLHF para ser um assistente mais útil. Para mais detalhes, você pode ler o artigo da Anthropic sobre o assunto.

Temperatura

A temperatura é um parâmetro que controla a aleatoriedade das previsões de um modelo durante a geração de texto. Temperaturas mais altas levam a saídas mais criativas e diversas, permitindo múltiplas variações na formulação e, no caso da ficção, variação nas respostas também. Temperaturas mais baixas resultam em saídas mais conservadoras e determinísticas que se atêm à formulação e respostas mais prováveis. Ajustar a temperatura permite que os usuários encorajem um modelo de linguagem a explorar escolhas e sequências de palavras raras, incomuns ou surpreendentes, em vez de selecionar apenas as previsões mais prováveis. O Claude Slackbot usa uma temperatura diferente de zero ao gerar respostas, o que permite alguma variação em suas respostas, mantendo a coerência e a relevância.

TTFT (Tempo até o primeiro token)

O Tempo até o Primeiro Token (TTFT) é uma métrica de desempenho que mede o tempo que um modelo de linguagem leva para gerar o primeiro token de sua saída após receber um prompt. É um indicador importante da capacidade de resposta do modelo e é particularmente relevante para aplicativos interativos, chatbots e sistemas em tempo real, onde os usuários esperam um feedback inicial rápido. Um TTFT menor indica que o modelo pode começar a gerar uma resposta mais rapidamente, proporcionando uma experiência de usuário mais perfeita e envolvente. Fatores que podem influenciar o TTFT incluem o tamanho do modelo, recursos de hardware, condições de rede e a complexidade do prompt.

Tokens

Tokens são as menores unidades individuais de um modelo de linguagem e podem corresponder a palavras, subpalavras, caracteres ou até bytes (no caso de Unicode). Para Claude, um token representa aproximadamente 3,5 caracteres em inglês, embora o número exato possa variar dependendo do idioma usado. Os tokens geralmente ficam ocultos ao interagir com modelos de linguagem no nível de “texto”, mas se tornam relevantes ao examinar as entradas e saídas exatas de um modelo de linguagem. Quando o texto é fornecido a Claude para avaliação, o texto (consistindo em uma série de caracteres) é codificado em uma série de tokens para o modelo processar. Tokens maiores permitem eficiência de dados durante a inferência e o pré-treinamento (e são utilizados quando possível), enquanto tokens menores permitem que um modelo lide com palavras incomuns ou nunca vistas antes. A escolha do método de tokenização pode afetar o desempenho do modelo, o tamanho do vocabulário e a capacidade de lidar com palavras fora do vocabulário.