Finestra di contesto

La “finestra di contesto” si riferisce alla quantità di testo che un modello linguistico può consultare e a cui può fare riferimento quando genera nuovo testo. Questo è diverso dal vasto corpus di dati su cui il modello linguistico è stato addestrato e rappresenta invece una “memoria di lavoro” per il modello. Una finestra di contesto più ampia consente al modello di comprendere e rispondere a prompt più complessi e lunghi, mentre una finestra di contesto più piccola può limitare la capacità del modello di gestire prompt più lunghi o mantenere la coerenza durante conversazioni prolungate.

Consulta la nostra tabella di confronto dei modelli per un elenco delle dimensioni delle finestre di contesto per modello.

Fine-tuning

Il fine-tuning è il processo di ulteriore addestramento di un modello linguistico pre-addestrato utilizzando dati aggiuntivi. Questo fa sì che il modello inizi a rappresentare e imitare i pattern e le caratteristiche del dataset di fine-tuning. Claude non è un modello linguistico base; è già stato sottoposto a fine-tuning per essere un assistente utile. La nostra API attualmente non offre il fine-tuning, ma ti preghiamo di chiedere al tuo contatto Anthropic se sei interessato a esplorare questa opzione. Il fine-tuning può essere utile per adattare un modello linguistico a un dominio specifico, un compito o uno stile di scrittura, ma richiede un’attenta considerazione dei dati di fine-tuning e del potenziale impatto sulle prestazioni e i pregiudizi del modello.

HHH

Queste tre H rappresentano gli obiettivi di Anthropic per garantire che Claude sia benefico per la società:

  • Un’IA helpful (utile) cercherà di svolgere il compito o rispondere alla domanda posta al meglio delle sue capacità, fornendo informazioni pertinenti e utili.
  • Un’IA honest (onesta) fornirà informazioni accurate, senza allucinazioni o confabulazioni. Riconoscerà i suoi limiti e le incertezze quando appropriato.
  • Un’IA harmless (innocua) non sarà offensiva o discriminatoria e, quando le viene chiesto di aiutare in un atto pericoloso o non etico, dovrebbe rifiutare educatamente e spiegare perché non può conformarsi.

Latenza

La latenza, nel contesto dell’IA generativa e dei grandi modelli linguistici, si riferisce al tempo necessario al modello per rispondere a un determinato prompt. È il ritardo tra l’invio di un prompt e la ricezione dell’output generato. Una latenza inferiore indica tempi di risposta più rapidi, che sono cruciali per applicazioni in tempo reale, chatbot ed esperienze interattive. I fattori che possono influenzare la latenza includono le dimensioni del modello, le capacità hardware, le condizioni di rete e la complessità del prompt e della risposta generata.

LLM

I Large Language Models (LLM) sono modelli linguistici di IA con molti parametri che sono in grado di eseguire una varietà di compiti sorprendentemente utili. Questi modelli sono addestrati su vaste quantità di dati testuali e possono generare testo simile a quello umano, rispondere a domande, riassumere informazioni e altro ancora. Claude è un assistente conversazionale basato su un grande modello linguistico che è stato sottoposto a fine-tuning e addestrato utilizzando RLHF per essere più utile, onesto e innocuo.

Pretraining

Il pretraining è il processo iniziale di addestramento dei modelli linguistici su un grande corpus di testo non etichettato. Nel caso di Claude, i modelli linguistici autoregressivi (come il modello sottostante di Claude) sono pre-addestrati per prevedere la parola successiva, dato il contesto precedente del testo nel documento. Questi modelli pre-addestrati non sono intrinsecamente bravi a rispondere alle domande o seguire istruzioni, e spesso richiedono una profonda abilità nell’ingegneria dei prompt per ottenere i comportamenti desiderati. Il fine-tuning e RLHF vengono utilizzati per perfezionare questi modelli pre-addestrati, rendendoli più utili per una vasta gamma di compiti.

RAG (Retrieval augmented generation)

La Retrieval augmented generation (RAG) è una tecnica che combina il recupero di informazioni con la generazione del modello linguistico per migliorare l’accuratezza e la rilevanza del testo generato, e per ancorare meglio la risposta del modello alle evidenze. Nel RAG, un modello linguistico viene aumentato con una base di conoscenza esterna o un set di documenti che viene passato nella finestra di contesto. I dati vengono recuperati in tempo reale quando una query viene inviata al modello, anche se il modello stesso non recupera necessariamente i dati (ma può farlo con l’uso di strumenti e una funzione di recupero). Durante la generazione del testo, le informazioni rilevanti devono prima essere recuperate dalla base di conoscenza in base al prompt di input, e poi passate al modello insieme alla query originale. Il modello utilizza queste informazioni per guidare l’output che genera. Questo permette al modello di accedere e utilizzare informazioni oltre i suoi dati di addestramento, riducendo la dipendenza dalla memorizzazione e migliorando l’accuratezza fattuale del testo generato. Il RAG può essere particolarmente utile per compiti che richiedono informazioni aggiornate, conoscenze specifiche del dominio o citazione esplicita delle fonti. Tuttavia, l’efficacia del RAG dipende dalla qualità e dalla rilevanza della base di conoscenza esterna e dalle conoscenze che vengono recuperate in tempo reale.

RLHF

Reinforcement Learning from Human Feedback (RLHF) è una tecnica utilizzata per addestrare un modello linguistico pre-addestrato a comportarsi in modi coerenti con le preferenze umane. Questo può includere aiutare il modello a seguire le istruzioni in modo più efficace o ad agire più come un chatbot. Il feedback umano consiste nel classificare un set di due o più testi di esempio, e il processo di apprendimento per rinforzo incoraggia il modello a preferire output simili a quelli classificati più in alto. Claude è stato addestrato utilizzando RLHF per essere un assistente più utile. Per maggiori dettagli, puoi leggere il documento di Anthropic sull’argomento.

Temperature

La temperature è un parametro che controlla la casualità delle previsioni di un modello durante la generazione del testo. Temperature più alte portano a output più creativi e diversificati, permettendo molteplici variazioni nella formulazione e, nel caso della narrativa, variazione nelle risposte. Temperature più basse risultano in output più conservativi e deterministici che si attengono alle formulazioni e risposte più probabili. Regolare la temperature permette agli utenti di incoraggiare un modello linguistico a esplorare scelte e sequenze di parole rare, insolite o sorprendenti, invece di selezionare solo le previsioni più probabili.

TTFT (Time to first token)

Time to First Token (TTFT) è una metrica di prestazione che misura il tempo necessario a un modello linguistico per generare il primo token del suo output dopo aver ricevuto un prompt. È un indicatore importante della reattività del modello ed è particolarmente rilevante per applicazioni interattive, chatbot e sistemi in tempo reale dove gli utenti si aspettano un feedback iniziale rapido. Un TTFT più basso indica che il modello può iniziare a generare una risposta più velocemente, fornendo un’esperienza utente più fluida e coinvolgente. I fattori che possono influenzare il TTFT includono le dimensioni del modello, le capacità hardware, le condizioni di rete e la complessità del prompt.

Token

I token sono le unità individuali più piccole di un modello linguistico e possono corrispondere a parole, parti di parole, caratteri o persino byte (nel caso di Unicode). Per Claude, un token rappresenta approssimativamente 3,5 caratteri inglesi, anche se il numero esatto può variare a seconda della lingua utilizzata. I token sono tipicamente nascosti quando si interagisce con i modelli linguistici a livello di “testo” ma diventano rilevanti quando si esaminano gli input e gli output esatti di un modello linguistico. Quando a Claude viene fornito del testo da valutare, il testo (costituito da una serie di caratteri) viene codificato in una serie di token che il modello deve elaborare. Token più grandi consentono l’efficienza dei dati durante l’inferenza e il pretraining (e vengono utilizzati quando possibile), mentre token più piccoli permettono a un modello di gestire parole rare o mai viste prima. La scelta del metodo di tokenizzazione può influenzare le prestazioni del modello, la dimensione del vocabolario e la capacità di gestire parole fuori dal vocabolario.