La AI generativa e la valutazione

roberto.gilli · 5 Agosto 2024, 9:07am

È stato pubblicato in questi giorni uno studio che potrebbe avere implicazioni significative per le nostre pratiche di valutazione. La ricerca, intitolata “Can Large Language Models Make the Grade?: An Empirical Study Evaluating LLMs Ability To Mark Short Answer Questions in K-12 Education”, esplora l’efficacia dei Large Language Models (LLM) nella valutazione di risposte brevi a domande aperte nel contesto dell’istruzione K-12.

Lo studio ha utilizzato un dataset innovativo di 1.700 risposte degli studenti a domande di Storia e Scienze, raccolte attraverso la piattaforma di quiz online Carousel. Le risposte sono state valutate sia da insegnanti qualificati che da diversi modelli LLM, in particolare GPT-3.5 e GPT-4.

Il risultato più notevole è che il modello più performante (GPT-4 con few-shot prompting) ha raggiunto un livello di accordo con i valutatori umani esperti quasi equivalente (Kappa di Cohen 0,70 vs 0,75). Inoltre, le prestazioni del modello sono rimaste relativamente costanti tra diverse discipline, livelli di difficoltà delle domande e fasce d’età degli studenti.

Questi risultati suggeriscono che gli LLM potrebbero diventare uno strumento prezioso per la valutazione didattica. L’utilizzo di tali modelli potrebbe comportare un significativo risparmio di tempo - nello studio, il tempo di valutazione è stato ridotto da 11 ore (stima per la valutazione manuale) a circa 2 ore utilizzando GPT-4.

È importante sottolineare che questi strumenti non mirano a sostituire il giudizio esperto degli insegnanti, ma piuttosto ad assisterlo, permettendoci di dedicare più tempo ad attività ad alto valore aggiunto come la progettazione didattica personalizzata e il supporto individualizzato agli studenti.

https://dl.acm.org/doi/pdf/10.1145/3657604.3664693

AlessandroZocchi · 5 Agosto 2024, 9:45am

Fantastico! Beh… qui dobbiamo fare un app dedicata! Anche per risposte lunghe, o per temi, riassunti, elaborati vari.

roberto.gilli · 5 Agosto 2024, 12:36pm

E c’è poi da considerare che la AI generativa può anche creare il questionario valutativo stesso: quindi il “risparmio” di tempo è ancora più rilevante.

Argomento		Risposte	Visualizzazioni
Studio: Kids who use ChatGPT as a study assistant do worse on tests AI per l'apprendimento ricerca , ai-generativa	3	38	Settembre 19, 2024
E se gli LLM potessero aiutarci a leggere meglio l'arte? Augmented Arts	0	27	Agosto 26, 2025
L'Intelligenza Emotiva Artificiale AI per l'apprendimento	0	41	Luglio 24, 2025
Tutor artificiale o naturale? AI per l'apprendimento	1	50	Marzo 10, 2025
Uso della AI nei lavori AI per l'apprendimento	2	19	Agosto 27, 2024

La AI generativa e la valutazione

Argomenti correlati