Ventana de contexto

La “ventana de contexto” se refiere a la cantidad de texto que un modelo de lenguaje puede revisar y al que puede hacer referencia cuando genera nuevo texto. Esto es diferente del gran corpus de datos con el que se entrenó el modelo de lenguaje, y representa más bien una “memoria de trabajo” para el modelo. Una ventana de contexto más grande permite que el modelo comprenda y responda a instrucciones más complejas y extensas, mientras que una ventana de contexto más pequeña puede limitar la capacidad del modelo para manejar instrucciones más largas o mantener la coherencia en conversaciones prolongadas.

Consulta nuestra guía para entender las ventanas de contexto para obtener más información.

Fine-tuning

El fine-tuning (ajuste fino) es el proceso de entrenar adicionalmente un modelo de lenguaje preentrenado utilizando datos adicionales. Esto hace que el modelo comience a representar y a imitar los patrones y características del conjunto de datos de ajuste fino. Claude no es un modelo de lenguaje básico; ya ha sido ajustado para ser un asistente útil. Nuestra API actualmente no ofrece ajuste fino, pero por favor consulta con tu contacto en Anthropic si estás interesado en explorar esta opción. El ajuste fino puede ser útil para adaptar un modelo de lenguaje a un dominio específico, tarea o estilo de escritura, pero requiere una consideración cuidadosa de los datos de ajuste fino y el impacto potencial en el rendimiento y los sesgos del modelo.

HHH

Estas tres H representan los objetivos de Anthropic para garantizar que Claude sea beneficioso para la sociedad:

  • Una IA helpful (útil) intentará realizar la tarea o responder a la pregunta planteada lo mejor que pueda, proporcionando información relevante y útil.
  • Una IA honest (honesta) dará información precisa, y no alucinará ni confabulará. Reconocerá sus limitaciones e incertidumbres cuando sea apropiado.
  • Una IA harmless (inofensiva) no será ofensiva ni discriminatoria, y cuando se le pida ayuda en un acto peligroso o no ético, la IA debería rechazar educadamente y explicar por qué no puede cumplir.

Latencia

La latencia, en el contexto de la IA generativa y los modelos de lenguaje grandes, se refiere al tiempo que tarda el modelo en responder a una instrucción dada. Es el retraso entre el envío de una instrucción y la recepción de la salida generada. Una menor latencia indica tiempos de respuesta más rápidos, lo cual es crucial para aplicaciones en tiempo real, chatbots y experiencias interactivas. Los factores que pueden afectar la latencia incluyen el tamaño del modelo, las capacidades del hardware, las condiciones de la red y la complejidad de la instrucción y la respuesta generada.

LLM

Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) son modelos de lenguaje de IA con muchos parámetros que son capaces de realizar una variedad de tareas sorprendentemente útiles. Estos modelos se entrenan con vastas cantidades de datos de texto y pueden generar texto similar al humano, responder preguntas, resumir información y más. Claude es un asistente conversacional basado en un modelo de lenguaje grande que ha sido ajustado y entrenado utilizando RLHF para ser más útil, honesto e inofensivo.

MCP (Protocolo de Contexto del Modelo)

El Protocolo de Contexto del Modelo (MCP) es un protocolo abierto que estandariza cómo las aplicaciones proporcionan contexto a los LLM. Como un puerto USB-C para aplicaciones de IA, MCP proporciona una forma unificada de conectar modelos de IA a diferentes fuentes de datos y herramientas. MCP permite que los sistemas de IA mantengan un contexto consistente a través de las interacciones y accedan a recursos externos de manera estandarizada. Consulta nuestra documentación de MCP para obtener más información.

Conector MCP

El conector MCP es una característica que permite a los usuarios de la API conectarse a servidores MCP directamente desde la API de Mensajes sin necesidad de construir un cliente MCP. Esto permite una integración perfecta con herramientas y servicios compatibles con MCP a través de la API de Anthropic. El conector MCP admite características como la llamada a herramientas y está disponible en beta pública. Consulta nuestra documentación del conector MCP para obtener más información.

Preentrenamiento

El preentrenamiento es el proceso inicial de entrenamiento de modelos de lenguaje en un gran corpus de texto no etiquetado. En el caso de Claude, los modelos de lenguaje autorregresivos (como el modelo subyacente de Claude) se preentrenan para predecir la siguiente palabra, dado el contexto previo de texto en el documento. Estos modelos preentrenados no son inherentemente buenos para responder preguntas o seguir instrucciones, y a menudo requieren una habilidad profunda en la ingeniería de instrucciones para obtener los comportamientos deseados. El ajuste fino y el RLHF se utilizan para refinar estos modelos preentrenados, haciéndolos más útiles para una amplia gama de tareas.

RAG (Generación aumentada por recuperación)

La generación aumentada por recuperación (RAG) es una técnica que combina la recuperación de información con la generación de modelos de lenguaje para mejorar la precisión y relevancia del texto generado, y para fundamentar mejor la respuesta del modelo en evidencias. En RAG, un modelo de lenguaje se aumenta con una base de conocimiento externa o un conjunto de documentos que se pasan a la ventana de contexto. Los datos se recuperan en tiempo de ejecución cuando se envía una consulta al modelo, aunque el modelo en sí no necesariamente recupera los datos (pero puede hacerlo con uso de herramientas y una función de recuperación). Al generar texto, primero debe recuperarse información relevante de la base de conocimiento basada en la instrucción de entrada, y luego pasarse al modelo junto con la consulta original. El modelo utiliza esta información para guiar la salida que genera. Esto permite que el modelo acceda y utilice información más allá de sus datos de entrenamiento, reduciendo la dependencia de la memorización y mejorando la precisión factual del texto generado. RAG puede ser particularmente útil para tareas que requieren información actualizada, conocimiento específico de dominio o citación explícita de fuentes. Sin embargo, la efectividad de RAG depende de la calidad y relevancia de la base de conocimiento externa y del conocimiento que se recupera en tiempo de ejecución.

RLHF

El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF, por sus siglas en inglés) es una técnica utilizada para entrenar un modelo de lenguaje preentrenado para que se comporte de manera consistente con las preferencias humanas. Esto puede incluir ayudar al modelo a seguir instrucciones de manera más efectiva o actuar más como un chatbot. La retroalimentación humana consiste en clasificar un conjunto de dos o más textos de ejemplo, y el proceso de aprendizaje por refuerzo anima al modelo a preferir salidas que sean similares a las mejor clasificadas. Claude ha sido entrenado utilizando RLHF para ser un asistente más útil. Para más detalles, puedes leer el artículo de Anthropic sobre el tema.

Temperatura

La temperatura es un parámetro que controla la aleatoriedad de las predicciones de un modelo durante la generación de texto. Temperaturas más altas conducen a salidas más creativas y diversas, permitiendo múltiples variaciones en la formulación y, en el caso de la ficción, variación en las respuestas también. Temperaturas más bajas resultan en salidas más conservadoras y deterministas que se adhieren a las formulaciones y respuestas más probables. Ajustar la temperatura permite a los usuarios animar a un modelo de lenguaje a explorar elecciones y secuencias de palabras raras, poco comunes o sorprendentes, en lugar de seleccionar solo las predicciones más probables.

TTFT (Tiempo hasta el primer token)

Tiempo hasta el Primer Token (TTFT, por sus siglas en inglés) es una métrica de rendimiento que mide el tiempo que tarda un modelo de lenguaje en generar el primer token de su salida después de recibir una instrucción. Es un indicador importante de la capacidad de respuesta del modelo y es particularmente relevante para aplicaciones interactivas, chatbots y sistemas en tiempo real donde los usuarios esperan una retroalimentación inicial rápida. Un TTFT más bajo indica que el modelo puede comenzar a generar una respuesta más rápido, proporcionando una experiencia de usuario más fluida y atractiva. Los factores que pueden influir en el TTFT incluyen el tamaño del modelo, las capacidades del hardware, las condiciones de la red y la complejidad de la instrucción.

Tokens

Los tokens son las unidades individuales más pequeñas de un modelo de lenguaje, y pueden corresponder a palabras, subpalabras, caracteres o incluso bytes (en el caso de Unicode). Para Claude, un token representa aproximadamente 3.5 caracteres en inglés, aunque el número exacto puede variar dependiendo del idioma utilizado. Los tokens típicamente están ocultos cuando se interactúa con modelos de lenguaje a nivel de “texto”, pero se vuelven relevantes cuando se examinan las entradas y salidas exactas de un modelo de lenguaje. Cuando se proporciona texto a Claude para evaluar, el texto (que consiste en una serie de caracteres) se codifica en una serie de tokens para que el modelo los procese. Los tokens más grandes permiten la eficiencia de datos durante la inferencia y el preentrenamiento (y se utilizan cuando es posible), mientras que los tokens más pequeños permiten que un modelo maneje palabras poco comunes o nunca antes vistas. La elección del método de tokenización puede impactar el rendimiento del modelo, el tamaño del vocabulario y la capacidad para manejar palabras fuera del vocabulario.