Quando un modello AI ci scrive “Il sole sorge a est”, come sceglie la parola est? Nel blogpost di questa settimana vedremo che, in effetti, segue la matematica dell’informazione, una teoria nata nel 1948 e di cui Claude Shannon è stato uno dei principali esponenti.
Shannon e il significato dell’entropia
Nel 1948 Claude Shannon, ingegnere ai Bell Labs, studiava come trasmettere messaggi attraverso cavi rumorosi senza perdere informazione. La sua risposta fu rivoluzionaria: definì matematicamente quanto è incerta una sorgente di informazione, chiamando questa misura entropia.
La formula è elegante:
H(X) = −∑ₓ p(x) log₂ p(x)
Vediamo cosa significa concretamente. L’entropia misura la quantità media di informazione prodotta da una sorgente — ovvero, quanto ogni suo messaggio ci sorprende in media. Se lancio una moneta perfettamente bilanciata, H = 1 bit: i due esiti sono equiprobabili, e ogni lancio mi trasmette esattamente un bit di informazione. Se la moneta è truccata e cade sempre testa, H = 0: il risultato è certo prima ancora di lanciare, non c’è nulla da trasmettere.
L’intuizione chiave è questa: informazione e prevedibilità sono opposti. Una sorgente che emette sempre lo stesso messaggio ha entropia zero — non comunica nulla di nuovo. Una sorgente imprevedibile ha entropia alta — ogni messaggio è una sorpresa, e quindi porta informazione. Shannon formalizzò qualcosa che intuiamo già: le notizie banali non fanno notizia.
Come un LLM legge e genera testo
Un modello linguistico, come quelli con cui ormai tutti ci interfacciamo quasi quotidianamente, non vede parole — vede token, frammenti di testo che possono essere parole intere, sillabe, o segni di punteggiatura. La frase “Entropia e informazione” diventa qualcosa come ["Entr", "opia", " e", " inform", "azione"]. Ogni token viene convertito in un vettore numerico — un punto in uno spazio con migliaia di dimensioni — dove token dal significato simile finiscono geometricamente vicini.
Il modello elabora l’intera sequenza di vettori attraverso un’architettura chiamata Transformer, che per ogni token calcola quanto “guardare” ciascuno dei token precedenti. Considera la frase “Il trofeo non entrò nella valigia perché era troppo grande”: per capire a cosa si riferisce “era”, il modello deve attribuire peso alto a “trofeo” e non a “valigia” — una disambiguazione che dipende dal significato, non dalla posizione. Questo meccanismo — l’attention — viene ripetuto in decine di strati sovrapposti, ognuno dei quali costruisce una rappresentazione del testo sempre più ricca.
Alla fine, il modello produce una distribuzione di probabilità su tutti i token possibili: un punteggio per ciascuno dei circa 100.000 token del vocabolario. Ed è qui che torna Shannon.
L’entropia come misura di incertezza del modello
Quella distribuzione ha una certa entropia di Shannon, che misura quanto il modello è incerto sul prossimo token da generare:
- Entropia bassa: la distribuzione è concentrata su uno o pochi token — il contesto vincola quasi completamente la scelta. Dopo “Il sole sorge a”, c’è poco da decidere.
- Entropia alta: molti token hanno probabilità simile — il modello è genuinamente incerto. Dopo “Cosa preferisci mangiare?”, pizza, pasta, sushi e decine di altre opzioni restano tutte plausibili.
Il token viene scelto campionando da questa distribuzione — ma come si campiona fa una grande differenza. Si può prendere sempre il token più probabile, ottenendo testo deterministico e ripetitivo, oppure campionare rispettando le probabilità, lasciando spazio alla variabilità. In pratica si usa un parametro intermedio, la temperatura, che controlla la forma stessa della distribuzione prima del campionamento.
Il nome è un’analogia con la fisica statistica: come temperature più alte corrispondono a particelle più agitate e stati energetici più distribuiti, una temperatura alta nel modello distribuisce la probabilità in modo più uniforme tra i token candidati — rendendo il testo più imprevedibile e creativo. Una temperatura bassa, al contrario, concentra la massa di probabilità sul token più probabile, producendo un testo più conservativo e prevedibile. È un controllo diretto sull’entropia della distribuzione ad ogni passo della generazione.
Il token viene infine estratto, entra nella sequenza come nuovo input, e il modello calcola di nuovo tutto da capo.