È stato pubblicato in questi giorni uno studio che potrebbe avere implicazioni significative per le nostre pratiche di valutazione. La ricerca, intitolata “Can Large Language Models Make the Grade?: An Empirical Study Evaluating LLMs Ability To Mark Short Answer Questions in K-12 Education”, esplora l’efficacia dei Large Language Models (LLM) nella valutazione di risposte brevi a domande aperte nel contesto dell’istruzione K-12.
Lo studio ha utilizzato un dataset innovativo di 1.700 risposte degli studenti a domande di Storia e Scienze, raccolte attraverso la piattaforma di quiz online Carousel. Le risposte sono state valutate sia da insegnanti qualificati che da diversi modelli LLM, in particolare GPT-3.5 e GPT-4.
Il risultato più notevole è che il modello più performante (GPT-4 con few-shot prompting) ha raggiunto un livello di accordo con i valutatori umani esperti quasi equivalente (Kappa di Cohen 0,70 vs 0,75). Inoltre, le prestazioni del modello sono rimaste relativamente costanti tra diverse discipline, livelli di difficoltà delle domande e fasce d’età degli studenti.
Questi risultati suggeriscono che gli LLM potrebbero diventare uno strumento prezioso per la valutazione didattica. L’utilizzo di tali modelli potrebbe comportare un significativo risparmio di tempo - nello studio, il tempo di valutazione è stato ridotto da 11 ore (stima per la valutazione manuale) a circa 2 ore utilizzando GPT-4.
È importante sottolineare che questi strumenti non mirano a sostituire il giudizio esperto degli insegnanti, ma piuttosto ad assisterlo, permettendoci di dedicare più tempo ad attività ad alto valore aggiunto come la progettazione didattica personalizzata e il supporto individualizzato agli studenti.