La AI generativa e la valutazione

È stato pubblicato in questi giorni uno studio che potrebbe avere implicazioni significative per le nostre pratiche di valutazione. La ricerca, intitolata “Can Large Language Models Make the Grade?: An Empirical Study Evaluating LLMs Ability To Mark Short Answer Questions in K-12 Education”, esplora l’efficacia dei Large Language Models (LLM) nella valutazione di risposte brevi a domande aperte nel contesto dell’istruzione K-12.

Lo studio ha utilizzato un dataset innovativo di 1.700 risposte degli studenti a domande di Storia e Scienze, raccolte attraverso la piattaforma di quiz online Carousel. Le risposte sono state valutate sia da insegnanti qualificati che da diversi modelli LLM, in particolare GPT-3.5 e GPT-4.

Il risultato più notevole è che il modello più performante (GPT-4 con few-shot prompting) ha raggiunto un livello di accordo con i valutatori umani esperti quasi equivalente (Kappa di Cohen 0,70 vs 0,75). Inoltre, le prestazioni del modello sono rimaste relativamente costanti tra diverse discipline, livelli di difficoltà delle domande e fasce d’età degli studenti.

Questi risultati suggeriscono che gli LLM potrebbero diventare uno strumento prezioso per la valutazione didattica. L’utilizzo di tali modelli potrebbe comportare un significativo risparmio di tempo - nello studio, il tempo di valutazione è stato ridotto da 11 ore (stima per la valutazione manuale) a circa 2 ore utilizzando GPT-4.

È importante sottolineare che questi strumenti non mirano a sostituire il giudizio esperto degli insegnanti, ma piuttosto ad assisterlo, permettendoci di dedicare più tempo ad attività ad alto valore aggiunto come la progettazione didattica personalizzata e il supporto individualizzato agli studenti.

https://dl.acm.org/doi/pdf/10.1145/3657604.3664693

1 Mi Piace

Fantastico! Beh… qui dobbiamo fare un app dedicata! Anche per risposte lunghe, o per temi, riassunti, elaborati vari.

1 Mi Piace

E c’è poi da considerare che la AI generativa può anche creare il questionario valutativo stesso: quindi il “risparmio” di tempo è ancora più rilevante.

1 Mi Piace