Ventana de contexto

La “ventana de contexto” se refiere a la cantidad de texto que un modelo de lenguaje puede revisar y referenciar cuando genera nuevo texto. Esto es diferente del gran corpus de datos con el que se entrenó el modelo de lenguaje, y representa en cambio una “memoria de trabajo” para el modelo. Una ventana de contexto más grande permite que el modelo entienda y responda a indicaciones más complejas y extensas, mientras que una ventana de contexto más pequeña puede limitar la capacidad del modelo para manejar indicaciones más largas o mantener la coherencia en conversaciones prolongadas.

Consulta nuestra tabla de comparación de modelos para ver una lista de tamaños de ventana de contexto por modelo.

Fine-tuning

Fine-tuning es el proceso de continuar entrenando un modelo de lenguaje preentrenado usando datos adicionales. Esto hace que el modelo comience a representar y replicar los patrones y características del conjunto de datos de fine-tuning. Claude no es un modelo de lenguaje básico; ya ha sido ajustado para ser un asistente útil. Nuestra API actualmente no ofrece fine-tuning, pero por favor consulta con tu contacto de Anthropic si estás interesado en explorar esta opción. El fine-tuning puede ser útil para adaptar un modelo de lenguaje a un dominio específico, tarea o estilo de escritura, pero requiere una consideración cuidadosa de los datos de ajuste y el impacto potencial en el rendimiento y sesgos del modelo.

HHH

Estas tres H representan los objetivos de Anthropic para asegurar que Claude sea beneficioso para la sociedad:

  • Una IA helpful (útil) intentará realizar la tarea o responder la pregunta planteada lo mejor posible, proporcionando información relevante y útil.
  • Una IA honest (honesta) dará información precisa, y no alucinará ni confabulará. Reconocerá sus limitaciones e incertidumbres cuando sea apropiado.
  • Una IA harmless (inofensiva) no será ofensiva ni discriminatoria, y cuando se le pida ayuda en un acto peligroso o no ético, la IA deberá rechazar cortésmente y explicar por qué no puede cumplir.

Latencia

La latencia, en el contexto de la IA generativa y los modelos de lenguaje grandes, se refiere al tiempo que tarda el modelo en responder a una indicación dada. Es el retraso entre enviar una indicación y recibir la salida generada. Una menor latencia indica tiempos de respuesta más rápidos, lo cual es crucial para aplicaciones en tiempo real, chatbots y experiencias interactivas. Los factores que pueden afectar la latencia incluyen el tamaño del modelo, las capacidades del hardware, las condiciones de la red y la complejidad de la indicación y la respuesta generada.

LLM

Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) son modelos de lenguaje de IA con muchos parámetros que son capaces de realizar una variedad de tareas sorprendentemente útiles. Estos modelos están entrenados con vastas cantidades de datos de texto y pueden generar texto similar al humano, responder preguntas, resumir información y más. Claude es un asistente conversacional basado en un modelo de lenguaje grande que ha sido ajustado y entrenado usando RLHF para ser más útil, honesto e inofensivo.

Preentrenamiento

El preentrenamiento es el proceso inicial de entrenar modelos de lenguaje en un gran corpus de texto sin etiquetar. En el caso de Claude, los modelos de lenguaje autorregresivos (como el modelo subyacente de Claude) están preentrenados para predecir la siguiente palabra, dado el contexto previo de texto en el documento. Estos modelos preentrenados no son inherentemente buenos para responder preguntas o seguir instrucciones, y a menudo requieren una habilidad profunda en la ingeniería de indicaciones para obtener los comportamientos deseados. El fine-tuning y RLHF se utilizan para refinar estos modelos preentrenados, haciéndolos más útiles para una amplia gama de tareas.

RAG (Generación aumentada por recuperación)

La generación aumentada por recuperación (RAG) es una técnica que combina la recuperación de información con la generación de modelos de lenguaje para mejorar la precisión y relevancia del texto generado, y para fundamentar mejor la respuesta del modelo en evidencia. En RAG, un modelo de lenguaje se aumenta con una base de conocimientos externa o un conjunto de documentos que se pasa a la ventana de contexto. Los datos se recuperan en tiempo de ejecución cuando se envía una consulta al modelo, aunque el modelo en sí no necesariamente recupera los datos (pero puede hacerlo con uso de herramientas y una función de recuperación). Al generar texto, primero debe recuperarse información relevante de la base de conocimientos basada en la indicación de entrada, y luego pasarse al modelo junto con la consulta original. El modelo utiliza esta información para guiar la salida que genera. Esto permite que el modelo acceda y utilice información más allá de sus datos de entrenamiento, reduciendo la dependencia de la memorización y mejorando la precisión factual del texto generado. RAG puede ser particularmente útil para tareas que requieren información actualizada, conocimiento específico del dominio o citación explícita de fuentes. Sin embargo, la efectividad de RAG depende de la calidad y relevancia de la base de conocimientos externa y el conocimiento que se recupera en tiempo de ejecución.

RLHF

El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) es una técnica utilizada para entrenar un modelo de lenguaje preentrenado para que se comporte de manera consistente con las preferencias humanas. Esto puede incluir ayudar al modelo a seguir instrucciones más efectivamente o actuar más como un chatbot. La retroalimentación humana consiste en clasificar un conjunto de dos o más textos de ejemplo, y el proceso de aprendizaje por refuerzo anima al modelo a preferir salidas que sean similares a las mejor clasificadas. Claude ha sido entrenado usando RLHF para ser un asistente más útil. Para más detalles, puedes leer el artículo de Anthropic sobre el tema.

Temperatura

La temperatura es un parámetro que controla la aleatoriedad de las predicciones de un modelo durante la generación de texto. Temperaturas más altas conducen a salidas más creativas y diversas, permitiendo múltiples variaciones en la formulación y, en el caso de la ficción, variación en las respuestas también. Temperaturas más bajas resultan en salidas más conservadoras y deterministas que se adhieren a la formulación y respuestas más probables. Ajustar la temperatura permite a los usuarios animar a un modelo de lenguaje a explorar elecciones y secuencias de palabras raras, poco comunes o sorprendentes, en lugar de seleccionar solo las predicciones más probables.

TTFT (Tiempo hasta el primer token)

Tiempo hasta el Primer Token (TTFT, por sus siglas en inglés) es una métrica de rendimiento que mide el tiempo que tarda un modelo de lenguaje en generar el primer token de su salida después de recibir una indicación. Es un indicador importante de la capacidad de respuesta del modelo y es particularmente relevante para aplicaciones interactivas, chatbots y sistemas en tiempo real donde los usuarios esperan retroalimentación inicial rápida. Un TTFT más bajo indica que el modelo puede comenzar a generar una respuesta más rápido, proporcionando una experiencia de usuario más fluida y atractiva. Los factores que pueden influir en el TTFT incluyen el tamaño del modelo, las capacidades del hardware, las condiciones de la red y la complejidad de la indicación.

Tokens

Los tokens son las unidades individuales más pequeñas de un modelo de lenguaje, y pueden corresponder a palabras, subpalabras, caracteres o incluso bytes (en el caso de Unicode). Para Claude, un token representa aproximadamente 3.5 caracteres en inglés, aunque el número exacto puede variar dependiendo del idioma utilizado. Los tokens típicamente están ocultos cuando se interactúa con modelos de lenguaje a nivel de “texto” pero se vuelven relevantes cuando se examina las entradas y salidas exactas de un modelo de lenguaje. Cuando se proporciona texto a Claude para evaluar, el texto (que consiste en una serie de caracteres) se codifica en una serie de tokens para que el modelo los procese. Los tokens más grandes permiten la eficiencia de datos durante la inferencia y el preentrenamiento (y se utilizan cuando es posible), mientras que los tokens más pequeños permiten que un modelo maneje palabras poco comunes o nunca antes vistas. La elección del método de tokenización puede impactar el rendimiento del modelo, el tamaño del vocabulario y la capacidad para manejar palabras fuera del vocabulario.