L’architettura della transizione in Data Science: le catene di Markov

Nel dominio della fisica statistica e della Data Science, l’incertezza non è sinonimo di caos, ma di una struttura probabilistica sottostante. Per modellare sistemi non deterministici che evolvono nel tempo, la Matematica utilizza i processi stocastici, anche detti aleatori: sequenze di eventi governati dal caso che rappresentano e descrivono l’evoluzione di un fenomeno. In altre parole, un processo stocastico è la formalizzazione di un sistema che evolve nel tempo seguendo leggi probabilistiche anziché deterministiche. Immaginate la quotazione di un titolo azionario o la posizione di una particella di polline in un fluido: non possiamo prevederne il valore esatto ad un preciso istante futuro, ma possiamo descrivere la legge di probabilità che governa l’evoluzione di questi fenomeni nel tempo.

Mentre in un processo fisico deterministico il futuro è fissato dalle condizioni iniziali, in uno stocastico possiamo solo descrivere la legge di probabilità che guida l’evoluzione. Se un processo generico può dipendere teoricamente da tutta la sua traiettoria passata, rendendolo estremamente complesso, la catena di Markov è un particolare processo stocastico che introduce una semplificazione di straordinaria eleganza: la proprietà di Markov. Andrey Markov, matematico russo (1856-1922), presentò la formalizzazione matematica (il modello matematico) di questi particolari processi, che usò anche per studiare sequenze letterarie come le vocali in Eugene Onegin di Puškin.

Ma cosa è la proprietà di Markov? In questo modello, il sistema si muove attraverso uno Spazio degli Stati che definisce il perimetro di tutte le configurazioni possibili. A seconda del fenomeno, questo spazio può essere:

  • Discreto: Il sistema “salta” tra condizioni A, B, C,… ben definite e separabili (come le pagine di un sito web, le note di una scala musicale o gli stati meteorologici Sole/Pioggia), come tra gli anelli di una catena.
  • Continuo: Il sistema fluttua in un intervallo di valori reali (come la temperatura di un gas, la posizione di una particella in un fluido o il prezzo di un asset finanziario).

Per una simulazione dinamica date un’occhiata a: Markov Chains

Indipendentemente dalla natura dello spazio, ciò che caratterizza le catene di Markov è la proprietà di Markov: la probabilità di evoluzione verso un valore futuro dipende esclusivamente dallo stato attuale. Il presente non è un istante isolato, ma una sintesi che contiene in sé tutta l’informazione storica necessaria per studiare (probabilisticamente) il futuro. Non è necessario conoscere tutto il percorso che ha condotto il sistema alla configurazione attuale; la sua posizione presente è l’unico dato rilevante per calcolarne la distribuzione di probabilità futura.

Questa struttura permette di governare la complessità in ambiti dove il flusso dei dati è costante e dinamico:

  • Fisica Statistica e Termodinamica: lo stato energetico e posizionale presente di una particella determina il suo spostamento infinitesimo successivo (come nel Moto Browniano), rendendo superflua la conoscenza della sua intera traiettoria passata.
  • Data Science (Ranking e MCMC): l’algoritmo PageRank di Google modella il web come una catena di Markov a stati discreti per stabilire la rilevanza dei siti. Parallelamente, le tecniche Markov Chain Monte Carlo esplorano spazi di probabilità continui e complessi per campionare dati in contesti di inferenza statistica avanzata.
  • Musica e linguaggio: replicando la struttura probabilistica delle transizioni tra suoni o parole possiamo (ri)comporre melodie più o meno complesse.

Verso l’equilibrio: Un aspetto fondamentale è che molte catene di Markov tendono a una distribuzione stazionaria. Indipendentemente dalle condizioni di partenza, dopo un tempo sufficiente la probabilità di trovare il sistema in una determinata regione dello spazio (o in un particolare stato) si stabilizza. È questa “stabilità probabilistica” che permette ai ricercatori di estrarre leggi universali da sistemi apparentemente volatili.

Referenze

> Blogpost setosa

> Wikipedia

1 Mi Piace