Finestra di contesto

La “finestra di contesto” si riferisce alla quantità di testo che un modello linguistico può esaminare e a cui può fare riferimento quando genera nuovo testo. Questo è diverso dal grande corpus di dati su cui il modello linguistico è stato addestrato e rappresenta invece una “memoria di lavoro” per il modello. Una finestra di contesto più ampia consente al modello di comprendere e rispondere a prompt più complessi e lunghi, mentre una finestra di contesto più piccola può limitare la capacità del modello di gestire prompt più lunghi o mantenere la coerenza in conversazioni estese.

Consulta la nostra tabella di confronto dei modelli per un elenco delle dimensioni della finestra di contesto per modello.

Fine-tuning

Il fine-tuning è il processo di ulteriore addestramento di un modello linguistico pre-addestrato utilizzando dati aggiuntivi. Ciò fa sì che il modello inizi a rappresentare e imitare i pattern e le caratteristiche del set di dati di fine-tuning. Claude non è un semplice modello linguistico; è già stato sottoposto a fine-tuning per essere un assistente utile. La nostra API attualmente non offre il fine-tuning, ma chiedi al tuo contatto Anthropic se sei interessato a esplorare questa opzione. Il fine-tuning può essere utile per adattare un modello linguistico a un dominio, un’attività o uno stile di scrittura specifici, ma richiede un’attenta considerazione dei dati di fine-tuning e del potenziale impatto sulle prestazioni e sui pregiudizi del modello.

HHH

Queste tre H rappresentano gli obiettivi di Anthropic nel garantire che Claude sia vantaggioso per la società:

  • Un’IA helpful (utile) tenterà di eseguire il compito o rispondere alla domanda posta al meglio delle sue capacità, fornendo informazioni pertinenti e utili.
  • Un’IA honest (onesta) fornirà informazioni accurate e non inventerà o confabulerà. Riconoscerà i suoi limiti e le sue incertezze quando appropriato.
  • Un’IA harmless (innocua) non sarà offensiva o discriminatoria e, quando le verrà chiesto di aiutare in un atto pericoloso o non etico, l’IA dovrebbe rifiutare gentilmente e spiegare perché non può accettare.

Latenza

La latenza, nel contesto dell’IA generativa e dei grandi modelli linguistici, si riferisce al tempo necessario al modello per rispondere a un determinato prompt. È il ritardo tra l’invio di un prompt e la ricezione dell’output generato. Una latenza inferiore indica tempi di risposta più rapidi, cruciali per applicazioni in tempo reale, chatbot ed esperienze interattive. I fattori che possono influenzare la latenza includono le dimensioni del modello, le capacità hardware, le condizioni di rete e la complessità del prompt e della risposta generata.

LLM

I modelli linguistici di grandi dimensioni (LLM) sono modelli linguistici di IA con molti parametri che sono in grado di eseguire una varietà di attività sorprendentemente utili. Questi modelli sono addestrati su enormi quantità di dati testuali e possono generare testo simile a quello umano, rispondere a domande, riassumere informazioni e altro ancora. Claude è un assistente conversazionale basato su un modello linguistico di grandi dimensioni che è stato sottoposto a fine-tuning e addestrato utilizzando RLHF per essere più utile, onesto e innocuo.

Pre-addestramento

Il pre-addestramento è il processo iniziale di addestramento dei modelli linguistici su un ampio corpus di testo non etichettato. Nel caso di Claude, i modelli linguistici autoregressivi (come il modello sottostante di Claude) sono pre-addestrati per prevedere la parola successiva, dato il contesto precedente del testo nel documento. Questi modelli pre-addestrati non sono intrinsecamente bravi a rispondere alle domande o a seguire le istruzioni e spesso richiedono una profonda abilità nell’ingegneria dei prompt per suscitare i comportamenti desiderati. Il fine-tuning e RLHF vengono utilizzati per perfezionare questi modelli pre-addestrati, rendendoli più utili per un’ampia gamma di attività.

RAG (Generazione aumentata dal recupero)

La generazione aumentata dal recupero (RAG) è una tecnica che combina il recupero delle informazioni con la generazione del modello linguistico per migliorare l’accuratezza e la pertinenza del testo generato e per basare meglio la risposta del modello sulle prove. Nella RAG, un modello linguistico viene integrato con una base di conoscenza esterna o un insieme di documenti che viene passato nella finestra di contesto. I dati vengono recuperati in fase di esecuzione quando una query viene inviata al modello, sebbene il modello stesso non recuperi necessariamente i dati (ma può farlo con l’uso di strumenti e una funzione di recupero). Durante la generazione del testo, le informazioni pertinenti devono prima essere recuperate dalla base di conoscenza in base al prompt di input, quindi passate al modello insieme alla query originale. Il modello utilizza queste informazioni per guidare l’output che genera. Ciò consente al modello di accedere e utilizzare informazioni oltre i suoi dati di addestramento, riducendo la dipendenza dalla memorizzazione e migliorando l’accuratezza fattuale del testo generato. La RAG può essere particolarmente utile per attività che richiedono informazioni aggiornate, conoscenze specifiche del dominio o citazioni esplicite delle fonti. Tuttavia, l’efficacia della RAG dipende dalla qualità e dalla pertinenza della base di conoscenza esterna e dalla conoscenza che viene recuperata in fase di esecuzione.

RLHF

L’apprendimento per rinforzo dal feedback umano (RLHF) è una tecnica utilizzata per addestrare un modello linguistico pre-addestrato a comportarsi in modi coerenti con le preferenze umane. Ciò può includere l’aiuto al modello a seguire le istruzioni in modo più efficace o ad agire più come un chatbot. Il feedback umano consiste nel classificare un insieme di due o più testi di esempio e il processo di apprendimento per rinforzo incoraggia il modello a preferire output simili a quelli con un punteggio più alto. Claude è stato addestrato utilizzando RLHF per essere un assistente più utile. Per maggiori dettagli, puoi leggere l’articolo di Anthropic sull’argomento.

Temperatura

La temperatura è un parametro che controlla la casualità delle previsioni di un modello durante la generazione del testo. Temperature più elevate portano a output più creativi e diversificati, consentendo più variazioni nella formulazione e, nel caso della narrativa, anche variazioni nelle risposte. Temperature più basse producono output più conservativi e deterministici che si attengono alla formulazione e alle risposte più probabili. La regolazione della temperatura consente agli utenti di incoraggiare un modello linguistico a esplorare scelte e sequenze di parole rare, insolite o sorprendenti, piuttosto che selezionare solo le previsioni più probabili. Claude Slackbot utilizza una temperatura diversa da zero quando genera le risposte, il che consente una certa variazione nelle sue risposte pur mantenendo coerenza e pertinenza.

TTFT (Tempo per il primo token)

Il tempo per il primo token (TTFT) è una metrica di prestazione che misura il tempo necessario a un modello linguistico per generare il primo token del suo output dopo aver ricevuto un prompt. È un indicatore importante della reattività del modello ed è particolarmente rilevante per applicazioni interattive, chatbot e sistemi in tempo reale in cui gli utenti si aspettano un feedback iniziale rapido. Un TTFT inferiore indica che il modello può iniziare a generare una risposta più velocemente, fornendo un’esperienza utente più fluida e coinvolgente. I fattori che possono influenzare il TTFT includono le dimensioni del modello, le capacità hardware, le condizioni di rete e la complessità del prompt.

Token

I token sono le più piccole unità individuali di un modello linguistico e possono corrispondere a parole, sottoparole, caratteri o anche byte (nel caso di Unicode). Per Claude, un token rappresenta approssimativamente 3,5 caratteri inglesi, anche se il numero esatto può variare a seconda della lingua utilizzata. I token sono in genere nascosti quando si interagisce con i modelli linguistici a livello di “testo”, ma diventano rilevanti quando si esaminano gli input e gli output esatti di un modello linguistico. Quando a Claude viene fornito del testo da valutare, il testo (costituito da una serie di caratteri) viene codificato in una serie di token affinché il modello possa elaborarlo. Token più grandi consentono l’efficienza dei dati durante l’inferenza e il pre-addestramento (e vengono utilizzati quando possibile), mentre token più piccoli consentono a un modello di gestire parole non comuni o mai viste prima. La scelta del metodo di tokenizzazione può influire sulle prestazioni del modello, sulle dimensioni del vocabolario e sulla capacità di gestire parole fuori vocabolario.