Capita spesso di aprire una tabella Excel senza soffermarsi troppo sulla sua struttura. Eppure, dietro le celle si nascondono quantità da leggere con attenzione: variabili, dati e osservazioni. Distinguere bene questi elementi per terminologia è fondamentale per riportare senza ambiguità ed interpretare correttamente un dataset.
In una tabella ben costruita, le intestazioni delle colonne rappresentano le variabili, cioè le caratteristiche che vogliamo osservare. Le righe rappresentano le osservazioni, cioè i singoli casi su cui raccogliamo le informazioni. Le celle contengono i dati, cioè i valori specifici che ogni variabile assume per ogni osservazione.
Ecco un esempio:
Vediamo come leggere la tabella Excel sopra.
- Variabili: sono le intestazioni delle colonne, cioè Età, Altezza (cm) e Nome (riportati nella prima riga)
- Osservazioni: sono le righe successive: abbiamo 10 osservazioni (corrispondenti a 10 persone intervistate).
- Dati: sono i valori dentro le celle, per esempio 19, 168, Anna.
Nota che il numero di dati (30 nell’esempio sopra) si trova facendo il prodotto tra il numero di variabili (3 nell’esempio sopra) e il numero di osservazioni (10 nell’esempio sopra).
Questa lettura è molto utile perché ci aiuta a interpretare la tabella in modo ordinato. Se non distinguiamo bene questi elementi, rischiamo di confondere una caratteristica con il suo valore. Per esempio, altezza non è un dato: è la variabile. Il numero 168 è invece il dato registrato per una specifica osservazione.
Un altro modo per ricordarlo è questo: la variabile dice che cosa stiamo osservando, l’osservazione dice su chi o su che cosa lo stiamo osservando, e il dato è l’intersezione tra una riga e una colonna: per esempio, nel caso di variabili numeriche, il dato ci dice quanto vale una certa variabile per una specifica osservazione. In una tabella Excel, quindi, la lettura corretta parte sempre dalla struttura: prima identifichiamo le intestazioni delle colonne, poi le righe, infine i valori nelle celle.
Se i dati sono stati raccolti in modo ordinato, nel dataset può esserci una variabile identificativa i cui valori distinguono in modo univoco ciascuna osservazione. Questa variabile non serve tanto a descrivere una caratteristica da analizzare, quanto a riconoscere senza ambiguità la riga a cui i dati si riferiscono
Questa distinzione è importante anche per chi lavora con dati in modo operativo. Saper leggere una tabella ci aiuta ad evitare errori di interpretazione, oltre che di “architettura” nella raccolta dei dati. Dunque, riassumendo: l’intestazione di una colonna è la variabile; una riga è un’osservazione completa; ogni cella contiene un dato, che acquista significato dentro questa struttura.
