Ventana de contexto

La “ventana de contexto” se refiere a la cantidad de texto que un modelo de lenguaje puede mirar hacia atrás y hacer referencia al generar nuevo texto. Esto es diferente del gran corpus de datos con el que se entrenó el modelo de lenguaje, y en su lugar representa una “memoria de trabajo” para el modelo. Una ventana de contexto más grande permite al modelo comprender y responder a indicaciones más complejas y extensas, mientras que una ventana de contexto más pequeña puede limitar la capacidad del modelo para manejar indicaciones más largas o mantener la coherencia en conversaciones prolongadas.

Consulte nuestra tabla de comparación de modelos para obtener una lista de los tamaños de ventana de contexto por modelo.

Ajuste fino

El ajuste fino es el proceso de entrenar aún más un modelo de lenguaje preentrenado utilizando datos adicionales. Esto hace que el modelo comience a representar e imitar los patrones y características del conjunto de datos de ajuste fino. Claude no es un modelo de lenguaje básico; ya ha sido ajustado para ser un asistente útil. Nuestra API actualmente no ofrece ajuste fino, pero consulte a su contacto de Anthropic si está interesado en explorar esta opción. El ajuste fino puede ser útil para adaptar un modelo de lenguaje a un dominio, tarea o estilo de escritura específico, pero requiere una consideración cuidadosa de los datos de ajuste fino y el impacto potencial en el rendimiento y los sesgos del modelo.

HHH

Estas tres H representan los objetivos de Anthropic para garantizar que Claude sea beneficioso para la sociedad:

  • Una IA útil intentará realizar la tarea o responder la pregunta planteada lo mejor que pueda, proporcionando información relevante y útil.
  • Una IA honesta proporcionará información precisa y no alucinará ni confabulará. Reconocerá sus limitaciones e incertidumbres cuando sea apropiado.
  • Una IA inofensiva no será ofensiva ni discriminatoria, y cuando se le pida ayuda en un acto peligroso o poco ético, la IA debería negarse cortésmente y explicar por qué no puede cumplir.

Latencia

La latencia, en el contexto de la IA generativa y los modelos de lenguaje grandes, se refiere al tiempo que tarda el modelo en responder a una indicación dada. Es el retraso entre enviar una indicación y recibir la salida generada. Una latencia más baja indica tiempos de respuesta más rápidos, lo cual es crucial para aplicaciones en tiempo real, chatbots y experiencias interactivas. Los factores que pueden afectar la latencia incluyen el tamaño del modelo, las capacidades del hardware, las condiciones de la red y la complejidad de la indicación y la respuesta generada.

LLM

Los modelos de lenguaje grandes (LLM) son modelos de lenguaje de IA con muchos parámetros que son capaces de realizar una variedad de tareas sorprendentemente útiles. Estos modelos se entrenan con grandes cantidades de datos de texto y pueden generar texto similar al humano, responder preguntas, resumir información y más. Claude es un asistente conversacional basado en un modelo de lenguaje grande que ha sido ajustado y entrenado utilizando RLHF para ser más útil, honesto e inofensivo.

Preentrenamiento

El preentrenamiento es el proceso inicial de entrenar modelos de lenguaje en un gran corpus de texto no etiquetado. En el caso de Claude, los modelos de lenguaje autorregresivos (como el modelo subyacente de Claude) se preentrenan para predecir la siguiente palabra, dado el contexto previo del texto en el documento. Estos modelos preentrenados no son inherentemente buenos para responder preguntas o seguir instrucciones, y a menudo requieren una habilidad profunda en la ingeniería de indicaciones para obtener los comportamientos deseados. El ajuste fino y RLHF se utilizan para refinar estos modelos preentrenados, haciéndolos más útiles para una amplia gama de tareas.

RAG (Generación aumentada por recuperación)

La generación aumentada por recuperación (RAG) es una técnica que combina la recuperación de información con la generación de modelos de lenguaje para mejorar la precisión y relevancia del texto generado, y para fundamentar mejor la respuesta del modelo en evidencia. En RAG, un modelo de lenguaje se aumenta con una base de conocimiento externa o un conjunto de documentos que se pasa a la ventana de contexto. Los datos se recuperan en tiempo de ejecución cuando se envía una consulta al modelo, aunque el modelo en sí no necesariamente recupera los datos (pero puede hacerlo con uso de herramientas y una función de recuperación). Al generar texto, primero se debe recuperar información relevante de la base de conocimiento en función de la indicación de entrada, y luego pasarla al modelo junto con la consulta original. El modelo utiliza esta información para guiar la salida que genera. Esto permite al modelo acceder y utilizar información más allá de sus datos de entrenamiento, reduciendo la dependencia de la memorización y mejorando la precisión fáctica del texto generado. RAG puede ser particularmente útil para tareas que requieren información actualizada, conocimiento específico del dominio o citación explícita de fuentes. Sin embargo, la efectividad de RAG depende de la calidad y relevancia de la base de conocimiento externa y el conocimiento que se recupera en tiempo de ejecución.

RLHF

El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) es una técnica utilizada para entrenar un modelo de lenguaje preentrenado para comportarse de maneras consistentes con las preferencias humanas. Esto puede incluir ayudar al modelo a seguir instrucciones de manera más efectiva o actuar más como un chatbot. La retroalimentación humana consiste en clasificar un conjunto de dos o más textos de ejemplo, y el proceso de aprendizaje por refuerzo alienta al modelo a preferir salidas que sean similares a las clasificadas más alto. Claude ha sido entrenado usando RLHF para ser un asistente más útil. Para más detalles, puede leer el artículo de Anthropic sobre el tema.

Temperatura

La temperatura es un parámetro que controla la aleatoriedad de las predicciones de un modelo durante la generación de texto. Las temperaturas más altas conducen a salidas más creativas y diversas, lo que permite múltiples variaciones en la formulación y, en el caso de la ficción, variación en las respuestas también. Las temperaturas más bajas dan como resultado salidas más conservadoras y deterministas que se adhieren a la formulación y las respuestas más probables. Ajustar la temperatura permite a los usuarios alentar a un modelo de lenguaje a explorar opciones y secuencias de palabras raras, poco comunes o sorprendentes, en lugar de seleccionar solo las predicciones más probables. Claude Slackbot usa una temperatura distinta de cero al generar respuestas, lo que permite cierta variación en sus respuestas mientras mantiene la coherencia y la relevancia.

TTFT (Tiempo hasta el primer token)

El tiempo hasta el primer token (TTFT) es una métrica de rendimiento que mide el tiempo que tarda un modelo de lenguaje en generar el primer token de su salida después de recibir una indicación. Es un indicador importante de la capacidad de respuesta del modelo y es particularmente relevante para aplicaciones interactivas, chatbots y sistemas en tiempo real donde los usuarios esperan una retroalimentación inicial rápida. Un TTFT más bajo indica que el modelo puede comenzar a generar una respuesta más rápido, proporcionando una experiencia de usuario más fluida y atractiva. Los factores que pueden influir en el TTFT incluyen el tamaño del modelo, las capacidades del hardware, las condiciones de la red y la complejidad de la indicación.

Tokens

Los tokens son las unidades individuales más pequeñas de un modelo de lenguaje, y pueden corresponder a palabras, subpalabras, caracteres o incluso bytes (en el caso de Unicode). Para Claude, un token representa aproximadamente 3.5 caracteres en inglés, aunque el número exacto puede variar según el idioma utilizado. Los tokens generalmente están ocultos cuando se interactúa con modelos de lenguaje a nivel de “texto”, pero se vuelven relevantes al examinar las entradas y salidas exactas de un modelo de lenguaje. Cuando se proporciona texto a Claude para evaluar, el texto (que consiste en una serie de caracteres) se codifica en una serie de tokens para que el modelo los procese. Los tokens más grandes permiten la eficiencia de datos durante la inferencia y el preentrenamiento (y se utilizan cuando es posible), mientras que los tokens más pequeños permiten que un modelo maneje palabras poco comunes o nunca antes vistas. La elección del método de tokenización puede afectar el rendimiento del modelo, el tamaño del vocabulario y la capacidad de manejar palabras fuera del vocabulario.