Glossario
Questi concetti non sono esclusivi dei modelli linguistici di Anthropic, ma presentiamo un breve riepilogo dei termini chiave qui di seguito.
Finestra di contesto
La “finestra di contesto” si riferisce alla quantità di testo che un modello linguistico può consultare e a cui può fare riferimento quando genera nuovo testo. Questo è diverso dal vasto corpus di dati su cui il modello linguistico è stato addestrato e rappresenta invece una “memoria di lavoro” per il modello. Una finestra di contesto più ampia consente al modello di comprendere e rispondere a prompt più complessi e lunghi, mentre una finestra di contesto più piccola può limitare la capacità del modello di gestire prompt più lunghi o mantenere la coerenza durante conversazioni prolungate.
Consulta la nostra guida per comprendere le finestre di contesto per saperne di più.
Fine-tuning
Il fine-tuning è il processo di ulteriore addestramento di un modello linguistico preaddestrato utilizzando dati aggiuntivi. Questo fa sì che il modello inizi a rappresentare e imitare i modelli e le caratteristiche del dataset di fine-tuning. Claude non è un modello linguistico base; è già stato sottoposto a fine-tuning per essere un assistente utile. La nostra API attualmente non offre il fine-tuning, ma ti preghiamo di chiedere al tuo contatto Anthropic se sei interessato a esplorare questa opzione. Il fine-tuning può essere utile per adattare un modello linguistico a un dominio specifico, a un compito o a uno stile di scrittura, ma richiede un’attenta considerazione dei dati di fine-tuning e del potenziale impatto sulle prestazioni e sui bias del modello.
HHH
Queste tre H rappresentano gli obiettivi di Anthropic per garantire che Claude sia vantaggioso per la società:
- Un’IA helpful (utile) cercherà di eseguire il compito o rispondere alla domanda posta al meglio delle sue capacità, fornendo informazioni pertinenti e utili.
- Un’IA honest (onesta) fornirà informazioni accurate, senza allucinazioni o confabulazioni. Riconoscerà i suoi limiti e le incertezze quando appropriato.
- Un’IA harmless (innocua) non sarà offensiva o discriminatoria e, quando le viene chiesto di aiutare in un atto pericoloso o non etico, l’IA dovrebbe rifiutarsi educatamente e spiegare perché non può conformarsi.
Latenza
La latenza, nel contesto dell’IA generativa e dei grandi modelli linguistici, si riferisce al tempo necessario al modello per rispondere a un determinato prompt. È il ritardo tra l’invio di un prompt e la ricezione dell’output generato. Una latenza inferiore indica tempi di risposta più rapidi, il che è cruciale per applicazioni in tempo reale, chatbot ed esperienze interattive. I fattori che possono influenzare la latenza includono le dimensioni del modello, le capacità hardware, le condizioni di rete e la complessità del prompt e della risposta generata.
LLM
I Large Language Models (LLM, grandi modelli linguistici) sono modelli linguistici di IA con molti parametri che sono in grado di eseguire una varietà di compiti sorprendentemente utili. Questi modelli sono addestrati su vaste quantità di dati testuali e possono generare testo simile a quello umano, rispondere a domande, riassumere informazioni e altro ancora. Claude è un assistente conversazionale basato su un grande modello linguistico che è stato sottoposto a fine-tuning e addestrato utilizzando RLHF per essere più utile, onesto e innocuo.
MCP (Model Context Protocol)
Il Model Context Protocol (MCP) è un protocollo aperto che standardizza il modo in cui le applicazioni forniscono contesto agli LLM. Come una porta USB-C per applicazioni di IA, MCP fornisce un modo unificato per connettere modelli di IA a diverse fonti di dati e strumenti. MCP consente ai sistemi di IA di mantenere un contesto coerente tra le interazioni e di accedere a risorse esterne in modo standardizzato. Consulta la nostra documentazione MCP per saperne di più.
Connettore MCP
Il connettore MCP è una funzionalità che consente agli utenti API di connettersi ai server MCP direttamente dall’API Messages senza dover costruire un client MCP. Ciò consente un’integrazione perfetta con strumenti e servizi compatibili con MCP attraverso l’API Anthropic. Il connettore MCP supporta funzionalità come la chiamata di strumenti ed è disponibile in beta pubblica. Consulta la nostra documentazione sul connettore MCP per saperne di più.
Pretraining
Il pretraining è il processo iniziale di addestramento dei modelli linguistici su un ampio corpus di testo non etichettato. Nel caso di Claude, i modelli linguistici autoregressivi (come il modello sottostante di Claude) sono preaddestrati per prevedere la parola successiva, dato il contesto precedente di testo nel documento. Questi modelli preaddestrati non sono intrinsecamente bravi a rispondere a domande o seguire istruzioni, e spesso richiedono una profonda abilità nell’ingegneria dei prompt per suscitare i comportamenti desiderati. Il fine-tuning e l’RLHF vengono utilizzati per perfezionare questi modelli preaddestrati, rendendoli più utili per una vasta gamma di compiti.
RAG (Retrieval augmented generation)
La Retrieval Augmented Generation (RAG) è una tecnica che combina il recupero di informazioni con la generazione di modelli linguistici per migliorare l’accuratezza e la rilevanza del testo generato, e per ancorare meglio la risposta del modello alle evidenze. Nel RAG, un modello linguistico è potenziato con una base di conoscenza esterna o un insieme di documenti che viene inserito nella finestra di contesto. I dati vengono recuperati in tempo reale quando una query viene inviata al modello, sebbene il modello stesso non recuperi necessariamente i dati (ma può farlo con l’uso di strumenti e una funzione di recupero). Durante la generazione del testo, le informazioni rilevanti devono prima essere recuperate dalla base di conoscenza in base al prompt di input, e poi passate al modello insieme alla query originale. Il modello utilizza queste informazioni per guidare l’output che genera. Ciò consente al modello di accedere e utilizzare informazioni oltre i suoi dati di addestramento, riducendo la dipendenza dalla memorizzazione e migliorando l’accuratezza fattuale del testo generato. RAG può essere particolarmente utile per compiti che richiedono informazioni aggiornate, conoscenze specifiche del dominio o citazioni esplicite delle fonti. Tuttavia, l’efficacia del RAG dipende dalla qualità e dalla rilevanza della base di conoscenza esterna e dalle conoscenze che vengono recuperate in tempo reale.
RLHF
Il Reinforcement Learning from Human Feedback (RLHF, Apprendimento per Rinforzo dal Feedback Umano) è una tecnica utilizzata per addestrare un modello linguistico preaddestrato a comportarsi in modi coerenti con le preferenze umane. Questo può includere aiutare il modello a seguire le istruzioni in modo più efficace o ad agire più come un chatbot. Il feedback umano consiste nel classificare un insieme di due o più testi di esempio, e il processo di apprendimento per rinforzo incoraggia il modello a preferire output simili a quelli classificati più in alto. Claude è stato addestrato utilizzando RLHF per essere un assistente più utile. Per maggiori dettagli, puoi leggere il documento di Anthropic sull’argomento.
Temperatura
La temperatura è un parametro che controlla la casualità delle previsioni di un modello durante la generazione di testo. Temperature più alte portano a output più creativi e diversificati, consentendo molteplici variazioni nella formulazione e, nel caso della narrativa, variazione nelle risposte. Temperature più basse producono output più conservativi e deterministici che si attengono alle formulazioni e risposte più probabili. Regolare la temperatura consente agli utenti di incoraggiare un modello linguistico a esplorare scelte e sequenze di parole rare, insolite o sorprendenti, piuttosto che selezionare solo le previsioni più probabili.
TTFT (Time to first token)
Time to First Token (TTFT, Tempo al Primo Token) è una metrica di prestazione che misura il tempo necessario a un modello linguistico per generare il primo token del suo output dopo aver ricevuto un prompt. È un indicatore importante della reattività del modello ed è particolarmente rilevante per applicazioni interattive, chatbot e sistemi in tempo reale in cui gli utenti si aspettano un feedback iniziale rapido. Un TTFT inferiore indica che il modello può iniziare a generare una risposta più velocemente, fornendo un’esperienza utente più fluida e coinvolgente. I fattori che possono influenzare il TTFT includono le dimensioni del modello, le capacità hardware, le condizioni di rete e la complessità del prompt.
Token
I token sono le più piccole unità individuali di un modello linguistico e possono corrispondere a parole, sottoparole, caratteri o persino byte (nel caso di Unicode). Per Claude, un token rappresenta approssimativamente 3,5 caratteri inglesi, sebbene il numero esatto possa variare a seconda della lingua utilizzata. I token sono tipicamente nascosti quando si interagisce con modelli linguistici a livello di “testo”, ma diventano rilevanti quando si esaminano gli input e gli output esatti di un modello linguistico. Quando a Claude viene fornito un testo da valutare, il testo (costituito da una serie di caratteri) viene codificato in una serie di token affinché il modello lo elabori. Token più grandi consentono l’efficienza dei dati durante l’inferenza e il pretraining (e vengono utilizzati quando possibile), mentre token più piccoli consentono a un modello di gestire parole insolite o mai viste prima. La scelta del metodo di tokenizzazione può influire sulle prestazioni del modello, sulle dimensioni del vocabolario e sulla capacità di gestire parole fuori dal vocabolario.