Medicina alla prova. La validazione del Progress Test a cura dell’ANVUR - Medicina e Chirurgia

Abstract

In analogia con le esperienze fatte in altri paesi, circa 15 anni fa le Facoltà di Medicina hanno cominciato a somministrare il Progress Test (PT) anche in Italia.

Si tratta di uno strumento longitudinale la cui funzione principale consiste nel monitorare l’acquisizione di conoscenze e competenze da parte degli studenti. Più recentemente, l’Agenzia Nazionale di Valutazione del sistema Universitario e della Ricerca ha avviato il progetto TECO che prevede la realizzazione e somministrazione di test in grado di rilevare le competenze trasversali (TECO-T) e disciplinari (TECO-D) acquisite dagli studenti durante la carriera universitaria. In particolare, il TECO-D promuove una definizione condivisa dei contenuti disciplinari core e la loro declinazione rispetto ai 5 Descrittori di Dublino, e i risultati che ne derivano possono venire utilizzati per l’autovalutazione dei singoli Corsi di Studi. Lo scopo del presente lavoro è stato di verificare se anche il Progress Test utilizzato dai CLM in Medicina e Chirurgia, dopo un’adeguata analisi delle domande che lo costituiscono e l’eventuale risoluzione delle criticità, abbia le caratteristiche proprie degli altri TECO-D già in uso. Abbiamo pertanto condotto delle analisi statistiche su risultati parziali della rilevazione avvenuta nell’a.a. 2019/20 del Progress Test di Medicina e Chirurgia, che permettono di controllare se e in quale misura le prove siano valide e attendibili, ovvero in grado di misurare i livelli di conoscenza e competenza in entrata e quelli raggiunti dagli studenti ad ogni anno di corso e al termine del percorso di studi. Gli indici calcolati mostrano come il test sia in grado di misurare i livelli di conoscenze e competenze acquisite dagli studenti, con ottimi livelli di affidabilità e coerenza interna. Inoltre, le analisi condotte sulla funzionalità dei distrattori rivelano un impianto solido degli item nel loro complesso. In conclusione, i risultati ottenuti suggeriscono che il Progress Test di Medicina e Chirurgia ha le caratteristiche degli altri TECO-D già in uso e può pertanto essere utilizzato allo scopo di autovalutazione dell’offerta formativa da docenti e Presidenti di CLM in Medicina e Chirurgia.

ABSTRACT

In analogy with the experience of other countries, about 15 years ago the Faculties of Medicine began to administer the Progress Test (PT) also in Italy. It is a longitudinal tool whose main function is to monitor students’ acquisition of knowledge and skills. More recently, the National Agency for the Evaluation of the University and Research System has launched the TECO project which involves the creation and administration of tests for assessing transversal (TECO-T) and disciplinary (TECO-D) competences, acquired by the students during their university career. In particular, TECO-D promotes a shared definition of the core disciplinary contents and their declination with respect to the 5 Dublin Descriptors, and its results can be used for the self-assessment of the single academic programmes. The purpose of this article was to verify whether the Progress Test of Medicine and Surgery, after an adequate analysis of its items and the solution of eventual critical issues, meets the characteristics of the other TECO-D already in use. We therefore conducted a statistical analysis on a sample of the test results of the Progress Test of Medicine and Surgery (academic year 2019/20), which allowed us to check whether and to what extent the items were valid and reliable, i.e. able to measure the levels of knowledge and competence at the beginning and those achieved by students at each year of the course and at the end of the study path. The indices thus obtained showed how the test is able to measure the levels of knowledge and skills acquired by students, with excellent levels of reliability and internal consistency. In addition, analysis performed on the distractor functionality revealed that the whole item list is solid. In conclusion, the results obtained suggested that the Progress Test of Medicine and Surgery has the characteristics of the other TECO-D already in use and can therefore be used for the purpose of self-evaluation of the teaching in the MD curricula.

Articolo

Introduzione

In analogia con l’esperienza fatta in altri paesi, quali gli Stati Uniti e l’Olanda, le Facoltà di Medicina adottarono il Progress Test (PT) anche in Italia circa 15 anni fa. Nel 2010, Alfred Tenore pubblicò un articolo in questa stessa rivista in cui presentava il primo Progress Test (PT), somministrato agli studenti delle Facoltà di Medicina italiane che, secondo l’autore, non erano al passo con quelle degli altri paesi perché mancavano di un core curriculum, di adeguate strategie didattiche e, soprattutto, di un metodo di autovalutazione. Secondo alcuni autori citati da Tenore (si veda Mennin e Kalishman, 1998), il ritardo con cui la valutazione degli apprendimenti degli studenti è stata implementata è dovuto, in generale, alla percezione impropria che la valutazione sia uno strumento di controllo e potere e non uno strumento di autovalutazione.

Il PT utilizzato in Italia nelle Facoltà di Medicina comprendeva 300 domande a scelta multipla che coprivano tutte le discipline mediche e chirurgiche, oltre che quelle di base. I risultati del PT, somministrato per quattro anni a circa 39 mila studenti, hanno dimostrato come l’aumento delle conoscenze degli studenti ci sia stato, ma di entità modesta, suggerendo la necessità di adottare metodi didattici più efficaci a sviluppare conoscenze e a mantenerle nel tempo. Tenore proponeva inoltre che il PT poteva essere implementato come prova per l’Esame di Stato nazionale per l’abilitazione all’esercizio della professione.

Quest’ultima profezia si era concretizzata nel D.M. del 9 maggio 2018 no. 58 del MIUR, in cui si annunciava che la prova per l’Esame di Stato “assumerà la forma di un test con domande a scelta multipla non note in anticipo dai candidati”. Così nel 2018 il PT test fu trasformato nel Training Test (TT), con lo scopo di preparare gli studenti al superamento dell’Esame di Stato (si veda Recchia e Moncharmont, 2019). Ultimamente però l’art. 102 del D.L. 17 marzo 2020, no. 18 ha abolito la il test con domande a scelta multipla come parte dell’Esame di Stato.

Le domande che sono state inserite nel TT riflettono il core curriculum dei corsi di laurea in Medicina e misurano le conoscenze in uscita dello studente relativamente alla loro ricaduta sulla competenza clinica.

Come il PT anche il TT è uno proxy non solo delle conoscenze / competenze ma anche della formazione impartita. Tuttavia un’analisi metodologicamente adeguata di queste prove non è mai stata eseguita.

Il progetto TECO

Con il progetto TECO (TEst sulle COmpetenze), avviato nel 2012, l’Agenzia Nazionale di Valutazione del sistema Universitario e della Ricerca (ANVUR) ha risposto al mandato di rilevare i livelli di conoscenze e competenze acquisite dagli studenti al termine del percorso di studi universitari, con l’obiettivo principale di contribuire al miglioramento della qualità dei processi formativi e di attivare meccanismi di autovalutazione interni al mondo accademico. A tal fine sono stati definiti e somministrati test in grado di misurare sia le competenze trasversali (TECO-T: Literacy, Numeracy 1, Problem Solving 2, Civics) sia quelle disciplinari (TECO-D). Le competenze disciplinari, diversamente da quelle trasversali, sono strettamente legate ai contenuti formativi specifici del percorso intrapreso dallo studente e possono essere confrontate solo tra corsi di analoga natura. La costruzione del test disciplinare segue un approccio bottom-up, che si avvale dell’adesione volontaria di Gruppi disciplinari composti da docenti universitari rappresentativi della comunità accademica. Compito della comunità accademica è individuare i learning outcomes e costruire le domande, mentre l’ANVUR supporta i gruppi nella definizione del test per quanto riguarda la validazione statistica e la revisione delle prove e, a seguire, coordina le fasi di somministrazione del test attraverso una piattaforma informatica gestita dal CINECA.

L’anima disciplinare del progetto TECO presenta diversi elementi di innovazione per le comunità accademiche. In primo luogo, basandosi su un approccio bottom-up, promuove una definizione condivisa da ciascun gruppo disciplinare dei contenuti disciplinari core e la loro declinazione rispetto ai 5 Descrittori di Dublino. In secondo luogo, i contenuti disciplinari core individuati dai gruppi disciplinari vengono resi accessibili attraverso la pubblicazione di documenti denominati framework e struttura della prova sul sito dell’ANVUR e, in questo modo, condivisi a livello nazionale dagli Atenei e dai singoli CdS che decidono liberamente se aderire o meno al progetto TECO ad ogni nuova rilevazione (prevista tra settembre e dicembre di ogni anno).

Tale processo, consentendo la creazione di test disciplinari caratterizzati da contenuti di base omogenei per area disciplinare, pone le basi per effettuare confronti inter- e intra-ateneo nell’ambito del singolo corso di studi. Inoltre, in ottica autovalutativa, le rilevazioni a cadenza annuale utilizzando le stesse prove consentono di monitorare la qualità della formazione universitaria e l’efficacia di eventuali azioni di miglioramento poste in essere nel corso del tempo. Infine, TECO-D, avvalendosi di una piattaforma informatica per l’erogazione di test, garantisce una gestione centralizzata e certificata per la somministrazione e la raccolta dei dati, senza ulteriori oneri per Atenei e CdS.

I Gruppi di Lavoro che hanno già completato e validato il proprio test disciplinare sono: Filosofia (L-5), Pedagogia (L-19) e numerose Professioni Sanitarie: Fisioterapia, Infermieristica, Tecniche di Radiologia Medica, Ostetricia, Infermieristica pediatrica, Logopedia, Terapia occupazionale, Terapia della Neuro- e Psico-motricità dell’età evolutiva, Dietistica, Tecniche di Laboratorio biomedico.

Altri Gruppi di Lavoro, quali Lettere, Psicologia e Medicina veterinaria stanno proficuamente lavorando all’identificazione dei contenuti core della disciplina e alla definizione del test. Al fine di verificare se le prove del PT/TT di Medicina e Chirurgia abbia caratteristiche metodologiche confrontabili con quelle degli altri TECO-D già in uso, ne abbiamo analizzato i risultati.

Materiali e metodi

Il Progress Test di Medicina e Chirurgia somministrato nel 2018 è composto da 200 item a scelta multipla, con 5 alternative di risposta. La validazione del PT di Medicina e Chirurgia è stata effettuata su un’unità di analisi composta complessivamente da 9.928 studenti, iscritti dal primo al sesto anno di un corso di Medicina e Chirurgia (LM-41).

Le Università che hanno fornito i dati per questa validazione sono in tutto sei, distribuite sull’intero territorio nazionale: l’Università degli Studi di Udine, l’Università degli Studi di Torino, l’Università degli Studi di Firenze, l’Università degli Studi di Roma “La Sapienza”, l’Università degli Studi di Foggia, l’Università degli Studi di Salerno. Nella Tabella 1 sono riportate le frequenze relative alla partecipazione degli studenti per Ateneo e per anno di corso.

Le procedure di controllo dell’efficacia del PT

Le analisi statistiche effettuate sui risultati del PT, permettono di verificare se e in quale misura le domande siano valide e attendibili e, quindi, in grado di misurare i livelli di conoscenza e comprensione applicata prefissati dal Corso di studi (CdS). In particolare, l’Item analysis permette di ricavare informazioni sia sulla validità di una prova nel suo complesso e sia sul funzionamento dei singoli item (Lucisano e Salerni, 2002; Rasch, 1960; Wright, 2005). Gli aspetti che sono stati analizzati sono i seguenti (Benvenuto, 2003; Corbetta, 1992; Di Franco, 2001):

Coerenza interna del test: è stata verificata la coerenza interna del PT attraverso il calcolo del coefficiente Alfa di Cronbach, che misura il grado con cui un test rileva un singolo fattore. I test che misurano più di un fattore hanno valori di Cronbach bassi, mentre i test omogenei tendono a valori più elevati. L’Alfa può assumere valori compresi tra 0 e 1, per cui più i valori si avvicinano a 1, più forte sarà la coerenza interna del test suggerendo, in quest’ultimo caso, che esso raccoglie informazioni solo su di un fattore o tratto.

La formula dell’Alfa di Cronbach è la seguente:

Dove n è il numero di item, σ2tot è la varianza del punteggio totale e σ2i la varianza dell’item i per l’insieme di individui in esame. Le soglie di accettabilità dell’Alfa di Cronbach sono riportate nella Tabella 2.

Efficacia degli item: l’efficacia dei singoli item può essere verificata calcolando alcuni parametri: Indice di Facilità (P) L’Indice di Facilità permette di sintetizzare il livello di facilità dell’item e in generale dell’intero test, mettendo in relazione gli studenti che hanno risposto correttamente al quesito con tutto il gruppo. Più è ampio il gruppo degli studenti che ha risposto in maniera corretta all’item, tanto più questa risulterà facile. La formula per il calcolo dell’Indice di Facilità è la seguente:

Dove xi è il punteggio dell’item i (dunque Σi xi è pari al numero delle risposte corrette) e N il numero di soggetti. Questo indice permette quindi di rivedere l’intera prova con l’obiettivo di rendere più difficili o più semplici alcuni quesiti in modo tale da ottenere una prova eterogenea. Esistono soglie di accettabilità di questo indice: gli item che ottengono un punteggio compreso tra 0,25 e 0,75 possono essere considerati generalmente accettabili (Tabella 3). Tuttavia l’analisi di questo indice deve essere effettuata considerando gli scopi per i quali la prova è costruita. Nel caso specifico del PT, ci si aspetta valori più elevati al termine di un percorso formativo (sesto anno), e valori più bassi, che indicano un elevato livello di difficoltà degli item, all’inizio del corso di studi (primo anno).

Punto-Biseriale (P-Bis)

La discriminatività di un item è calcolabile attraverso la correlazione Punto-Biseriale e spiega se il quesito è in grado di distinguere gli studenti più preparati da quelli che lo sono meno. Si tratta di un coefficiente che si ottiene mettendo a confronto i risultati ottenuti da tutti gli studenti che hanno risposto correttamente a un singolo item, con i punteggi di tutti gli studenti all’intero test, meno quell’item. La formula per il calcolo del Punto-Biseriale è la seguente:

Dove xe è la media dei punteggi al test dei soggetti che hanno dato la risposta corretta all’item, xt è la media dei punteggi al test di tutti i soggetti, σ è la deviazione standard dei punteggi di tutti i soggetti e p è la frequenza relativa delle risposte esatte: p =( xi / N ).

L’indice varia da – 1 a + 1. Il valore massimo di + 1 viene raggiunto quando tutti gli studenti più competenti rispondono in maniera corretta al quesito, mentre nessuna risposta corretta viene data dal gruppo dei meno preparati. Il valore minimo teorico -1 si presenta quando tutti i migliori sbagliano e tutti i peggiori rispondono in maniera corretta. Se l’indice si avvicina a 0 sta a significare la mancanza di discriminatività e che l’item non è in grado di distinguere realmente i due gruppi di studenti. Le soglie di accettabilità del Punto-Biseriale sono riportate nella Tabella 4.

Come per l’Indice di Facilità, anche l’analisi dei valori che assume il Punto-Biseriale deve essere effettuata considerando gli scopi per i quali la prova è costruita. Nel caso specifico di una prova disciplinare, all’inizio del corso di studi (primo anno) ci si aspetta un valore alto, mentre al termine di un percorso formativo (sesto anno) sarà normale ottenere valori più bassi, ma pur sempre accettabili (> 0,20). Al termine di un percorso universitario, infatti, tutti gli studenti dovrebbero raggiungere più o meno gli stessi livelli di competenza e, di conseguenza, le eventuali differenze iniziali tra di loro dovrebbero essere ridimensionate per effetto dell’attività didattica.

Funzionalità dei distrattori

Per ogni item abbiamo analizzato la distribuzione delle risposte degli studenti alle alternative del singolo quesito(4). Questa analisi permette di capire se e in quale misura i distrattori (le modalità di risposta non corrette) abbiano funzionato in maniera efficace.

Una domanda a scelta multipla con distrattori efficaci è caratterizzata da un’elevata frequenza di risposte per l’alternativa corretta e da una bilanciata attrattività dei distrattori. Di conseguenza, un distrattore non svolge adeguatamente la propria funzione quando viene scelto troppo spesso (probabilmente perché presenta troppi elementi in comune con la risposta corretta) o al contrario quando non viene mai scelto (presenta elementi poco plausibili). Nel caso specifico di una prova disciplinare ci si aspetta che al termine del percorso universitario le risposte corrette attirino maggiormente le preferenze degli studenti, a scapito di una buona distribuzione di scelte anche per i distrattori, mentre al primo anno ci si aspetta una più omogenea scelta da parte degli studenti anche delle alternative errate.

Gli indici illustrati considerano il gruppo come un solo insieme, ma dal momento che il gruppo è formato da studenti che possono raggiungere livelli di conoscenza, comprensione e competenza diversi, si esamina il grado di omogeneità o eterogeneità del gruppo attraverso il calcolo del Coefficiente di Variazione (CdV), indice che si ottiene dal rapporto tra due parametri di una distribuzione, la media e la deviazione standard, espresso in percentuale:

Il CdV fornisce un’informazione relativa alla dispersione dei punteggi: quanto più è alto il suo valore tanto più i punteggi sono dispersi rispetto alla media. Quando il coefficiente è inferiore a 10 significa che un gruppo è omogeneo, mentre un coefficiente che supera il valore di 20 indica una forte eterogeneità del gruppo. Nel caso in cui la deviazione standard dalla media sia superiore alla media stessa si ottiene un CdV superiore a 100. Nel caso di una prova disciplinare, ci si attende che un CdV elevato all’inizio del percorso universitario (primo anno) diminuisca gradualmente negli anni successivi.

Risultati

Per la validazione della prova del PT sono state analizzate le risposte di 9.928 studenti, appartenenti ai sei anni di corso, ai 200 item a scelta multipla con cinque alternative di risposta che compongono la prova. Di seguito vengono riportati i dati analizzati per tutti gli anni di corso. Nella Tabella 5 sono riportati gli indici di coerenza interna del test (Alfa di Cronbach), e i valori medi dell’Indice di Facilità e del Punto-Biseriale, per anno di corso.

Per quanto riguarda la coerenza interna del test, si registrano valori dell’Alfa di Cronbach ottimi (superiori a 0,90) per tutti gli anni di corso, indicando complessivamente un’ottima coerenza interna del test. I valori medi dell’indice di Facilità raggiungono un livello medio-difficile (0,28) per gli studenti del primo anno e un livello medio-facile (0,62 – 0,68) per gli studenti del quinto e sesto anno. Nonostante i punteggi medi non raggiugano mai il livello di Facilità più alto (> 0,75), neanche al sesto anno, è possibile comunque sostenere che gli studenti al termine del percorso di studi siano complessivamente più preparati ad affrontare con successo le domande del test. Queto dato trova riscontro nel fatto che il numero di item facili (cfr. Tabella 6; cioè con un Indice superiore a 0,75) aumenta dal primo (4%) al sesto anno (53,5%); allo stesso modo, gli item medio-difficili e difficili al primo anno sono complessivamente 166 (83%), mentre al sesto anno scendono a 45 (22,5%).

Il Punto-Biseriale medio presenta valori adeguati (> 0,20) per tutti gli anni di corso, suggerendo che il PT è in grado di distinguere gli studenti più preparati da quelli che lo sono meno lungo tutto il percorso formativo (Tabella 5). Inoltre, la discriminatività degli item si mantiene su valori > 0,20 per circa il 70% dei quesiti (o più) per tutti gli anni di corso, mentre gli item non discriminativi non superano mai il 20% della prova (Tabella 7).

Se osserviamo l’andamento degli item per livello di discriminatività (Tabella 7) notiamo che la percentuale di item con un buon livello di discriminatività passa dal 71,5% del primo anno al 79,5% del sesto, con un picco di 82,5% al quinto anno, mentre la percentuale di item con Punto-Biseriale inadeguato rimane intorno al 14% al primo e al sesto anno (28 e 27 item rispettivamente). In linea generale, l’andamento della discriminatività dei singoli item conferma quanto detto rispetto al PBis medio della prova distinto per anno, in quanto la capacità di discriminare dei quesiti migliora durante il percorso universitario (il numero di item deboli si dimezza e aumentano gli item con buona discriminatività).

Nelle Tabella 8 sono riportati i principali indicatori utilizzati per analizzare la prova:

– numero di item che compongono il test;

– anno di corso degli studenti;

– numero degli studenti che hanno risposto al test (per anno di corso);

– punteggio (numero di risposte esatte) minimo ottenuto (per anno di corso);

– percentuale di studenti che hanno ottenuto il punteggio (numero di risposte esatte) minimo (per anno di corso);

– punteggio (numero di risposte esatte) massimo ottenuto (per anno di corso);

– percentuale di studenti che hanno ottenuto il punteggio (numero di risposte esatte) massimo (per anno di corso);

– punteggio (numero di risposte esatte) medio ottenuto (per anno di corso);

– deviazione standard dal punteggio medio (per anno di corso);

– punteggio medio normalizzato (rapporto tra punteggio medio e numero degli item, varia da 0 a 1) (per anno di corso);

– coefficiente di variazione (per anno di corso).

Assegnando il valore di 1 a ogni risposta corretta e 0 a ogni risposta sbagliata o non data, il test può raggiungere un punteggio massimo teorico di 200 punti. Analizzando i punteggi grezzi, la media dei punteggi totali degli studenti è pari a 56,17 per il primo anno e a 135,47 per il sesto, con un incremento significativo al termine del percorso di studi. Il Coefficiente di Variazione (CdV), che offre un’informazione relativa alla dispersione dei punteggi e quindi all’eterogeneità dei gruppi, diminuisce progressivamente dal primo al sesto anno, indicando che al termine del percorso universitario gli studenti raggiungono livelli di preparazione più omogenei.

La progressione delle prestazioni degli studenti al test ad ogni passaggio d’anno è ulteriormente confermata dal valore medio dell’Indice di Facilità per anno (Figura 1).

Dalla Figura 1 risulta evidente che mentre al primo anno gli studenti rispondono in modo corretto mediamente a circa il 28% delle domande proposte, la quota di risposte corrette aumenta progressivamente a ogni passaggio d’anno, arrivando al 68% di risposte corrette mediamente date dagli studenti del sesto anno. Lo scarto maggiore si registra tra il terzo e il quarto anno, intervallo all’interno del quale si evidenzia un incremento di risposte corrette del 14%.

Di seguito si riportano le rappresentazioni grafiche delle distribuzioni di frequenza dei punteggi (numero di risposte esatte) per anno di corso per l’intera prova. Queste rappresentazioni hanno lo scopo di facilitare la lettura delle differenze tra le distribuzioni dei punteggi per i sei anni di corso.

Sull’asse verticale sono riportate le frequenze in numero assoluto degli studenti per anno di corso, mentre sull’asse orizzontale è riportata la distribuzione dei punteggi dal minimo al massimo ottenuto. Per maggiore chiarezza abbiamo riportato la distribuzione dei punteggi dei primi tre anni di corso nella Figura 2 e dei restanti tre anni di corso (quarto, quinto e sesto) nella Figura 3. In generale, è possibile affermare che dal primo al sesto anno si registra un miglioramento progressivo delle prestazioni degli studenti.

La distribuzione dei punteggi grezzi mostra un’evidente differenza tra le prestazioni degli studenti del primo anno e quelle negli anni successivi (Figura 2): la curva dei punteggi del primo anno si trova all’estrema sinistra del grafico, evidenziando quindi punteggi minimi e massimi raggiunti dagli studenti più bassi rispetto agli altri due gruppi, secondo e terzo anno, le cui curve di distribuzione si spostano progressivamente verso le posizioni centrali del grafico, associate a punteggi minimi e bassi più alti. Le curve dei primi tre anni di corso assumono una forma appiattita (platicurtica), con code laterali abbastanza lunghe, a indicare una certa disomogeneità nei risultati al test ottenuti dagli studenti.

A partire dal quarto anno (Figura 3), e sempre di più al quinto e al sesto, le distribuzioni dei punteggi occupano un range meno ampio, assumendo una forma più allungata verso l’alto (normocurtica o leptocurtica). Questo Aspetto evidenzia una maggiore omogeneità di prestazioni negli ultimi tre anni di corso, verosimilmente per effetto dell’azione didattica, e un progressivo miglioramento delle prestazioni degli studenti, confermato anche dallo spostamento delle curve verso la parte destra del grafico, associata a punteggi minimi e massimi più elevati.

Analisi delle criticità degli item

L’analisi della prova è accompagnata da un’analisi puntuale delle caratteristiche dei singoli item utilizzando i principali indici dell’Item Analysis classica: l’Indice di Facilità (P), il coefficiente Punto-Biseriale (P-Bis), l’analisi delle frequenze per ogni modalità di risposta (distrattori/alternative e risposta esatta) e la frequenza delle omissioni. Per ogni item viene proposta una segnalazione per una revisione a cura del Gruppo di Lavoro, sulla base dei seguenti punti di attenzione:

Facilità stabile

L’item riceve questa segnalazione quando registra valori dell’Indice di Facilità relativamente stabili dal primo al sesto anno. In questi casi, l’item potrebbe richiedere livelli di conoscenza già ampiamente acquisiti dagli studenti, risultando quindi facile sia all’inizio sia al termine del percorso di studi; viceversa, l’item potrebbe risultare estremamente difficile per tutti gli anni di corso. In entrambi i casi, il valore dell’indice potrebbe essere spiegato da un’effettiva facilità o difficoltà rispetto ai contenuti, oppure da un mancato bilanciamento dei distrattori, che possono risultare troppo deboli o troppo attrattivi, polarizzando le risposte in un senso o in un altro.

Facilità decrescente

L’item riceve questa segnalazione quando registra valori decrescenti di facilità tra il primo e il sesto anno, cioè quando risulta più difficile al termine del percorso universitario, suggerendo una perdita di informazioni acquisite negli anni precedenti.

Discriminatività debole o inadeguata

L’item riceve queste segnalazioni quando registra valori del Punto-Biseriale deboli o inadeguati (al di sotto dello 0,20), spesso persino negativi, suggerendo che gli studenti migliori rispondono in modo corretto meno frequentemente dei compagni che conseguono risultati peggiori al test.

Discriminatività crescente

L’item riceve questa segnalazione quando registra valori del Punto-Biseriale crescenti nel passaggio dal primo al sesto anno di corso. Il dato contraddice l’aspettativa di riscontrare per i singoli item una discriminatività minore man mano che si procede verso il termine del percorso di studi. In base all’analisi condotta, nessun item presenta una chiara discriminatività crescente tra il primo e il sesto anno.

Distrattori attrattivi o deboli

L’item riceve questa segnalazione quando alcuni item presentano distrattori poco bilanciati, che risultano troppo attrattivi rispetto all’alternativa corretta o troppo deboli.

Per ragioni di chiarezza espositiva gli item critici sono divisi in tre categorie:

a) item con uno o più distrattori attrattivi;
b) item con uno o più distrattori deboli;
c) item con distrattori attrattivi e distrattori deboli.

Gli item della categoria a) contengono dei distrattori troppo plausibili, a volte scelti più frequentemente della risposta esatta. In questo caso, la revisione dell’item richiede di riformulare l’alternativa di risposta (o le alternative) in modo da renderla meno attrattiva. Tuttavia, è possibile che anche altri parti dell’item debbano essere riformulate. Ad esempio, la polarizzazione delle risposte verso un’alternativa sbagliata potrebbe essere dovuta anche a una cattiva formulazione del quesito, oppure a una errata elaborazione della risposta corretta.

Gli item della categoria b), invece, sono caratterizzati da uno o più distrattori deboli. L’item riceve questa segnalazione quando registra almeno un’alternativa con una frequenza di scelta inferiore a 0,05. In questi casi occorre rendere più plausibili le alternative, altrimenti il rischio è che alcune domande risultino troppo semplici, con un livello di facilità stabile nel passaggio da un anno di corso all’altro, e non in grado di discriminare adeguatamente gli studenti migliori.

Infine, gli item della categoria c) presentano sia distrattori troppo attrattivi sia distrattori troppo deboli. In questo caso, è necessario rivedere l’item a causa dell’evidente mancato bilanciamento dei distrattori.

Omissioni

L’item riceve questa segnalazione quando registra percentuali di omissioni superiori al 10%. In nessun caso si è presentata questa criticità all’interno del PT.

Discussione e conclusioni

In generale, la validazione del Progress Test / Training Test di Medicina e Chirurgia ha dimostrato che il test funziona adeguatamente anche se ci sono margini per migliorarlo. Infatti su 200, 115 item non registrano nessun tipo di criticità e 41 evidenziano una sola criticità e solo quattro item presentano più di tre criticità. La tipologia di criticità maggiormente riscontrata riguarda la funzionalità dei distrattori che in alcuni casi si rivelano troppo deboli o troppo attrattivi, mentre restano marginali le segnalazioni riguardanti l’Indice di Facilità. Infine, non sono stati riscontrati problemi riferibili a una discriminatività crescente dell’item, né percentuali elevate di omissioni in nessuno degli anni di corso presi in considerazione.

La nostra analisi dimostra che il Progress Test / Training Test di Medicina e Chirurgia può a tutti gli effetti essere utilizzato come TECO-D disciplinare perché ha un impianto solido, tecnicamente coerente e in grado di misurare effettivamente i livelli di conoscenze e competenze acquisiti dagli studenti al termine del percorso di studi universitari, contribuendo così al miglioramento della qualità dei processi formativi e all’attivazione di meccanismi di autovalutazione interni al mondo accademico stesso. Infine, è importante continuare a rimpinguare il bacino con nuove domande che abbiano le stesse caratteristiche di quelle validate.

NOTE

1 Per un approfondimento sulle prime sperimentazioni ANVUR dedicate agli ambiti di Literacy e Numeracy si veda Rumiati e collaboratori (2018).

2 Per un approfondimento sul Problem Solving definito da ANVUR si veda Rumiati e collaboratori (2019).

3 La Sapienza – Università di Roma ha rilasciato i dati per 4 Corsi di Laurea, denominati A, B, C, D. In questa tabella abbiamo riportato il dato aggregato, più utile ai fini della nostra analisi.

4 Nel caso specifico del TECO-D di Medicina e Chirurgia, ogni domanda è composta da cinque alternative di risposta, di cui una sola corretta e quattro distrattori plausibili.

Bibliografia

Benvenuto, G. (2003). Mettere i voti a scuola. Introduzione alla docimologia. Carocci Editore, Roma.

Corbetta, P. (1992). Metodi di analisi multivariata per le scienze sociali. Il Mulino, Bologna.

Di Franco, G. (2001). EDS: esplorare, descrivere e sintetizzare i dati. Guida pratica all’analisi dei dati nella ricerca sociale. Franco Angeli, Milano.

Lucisano, P. Salerni, A. (2002). Metodologia della ricerca in educazione e formazione. Carocci Editore, Roma. ISBN-10: 8843023667.

Mennin, S.P. Kalishman, S. (1998). Student assessment Acad Med, 73 (Suppl.): S46-S54

Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Denmarks Pedagogiske Institut Copenaghen (rist. Chicago University Press, Chicago, 1980).

Recchia L., Moncharmont B., Dal Progress Test al Training Test: analisi dei risultati finali 2018, Medicina e Chirurgia, 82, 3650-3654, 2019. DOI: 10.4487/medchir2019-82-2

Rumiati R., Ciolfi A., Di Benedetto A., Sabella M., Infurna M., Ancaiani A., Checchi D. : (2018). Key-competences in higher education as a tool for democracy, Form@Re – Open Journal Per La Formazione In Rete, 18(3), 7-18, disponibile su https://oaj.fupress.net/index.php/formare/issue/view/312.

Rumiati R.I., Checchi D., Ancaiani A., Ciolfi A., Sabella M., Infurna M.R., Di Benedetto A. (2019). Il Problem Solving come competenza trasversale. Inquadramento e prospettive nell’ambito del progetto TECO, Scuola Democratica, 1, 239-257. ISSN 1129-731X.

Tenore, A. (2010). Il Progress Test. Considerazioni e speranze per il futuro delle Facoltà di Medicina italiane. Medicina e Chirurgia, 49, 2123-2130.

Wright, B.D. (2005). Solving measurement problems with the Rasch model. Journal of Educational Measurement, 14 (2): 97 – 116. DOI: 10.1111/j.1745-3984.1977.tb00031.x

Cita questo articolo

Bacocco, B., et al., Medicina alla prova. La validazione del Progress Test a cura dell’ANVUR, in Medicina e Chirurgia, 85, 3788-3796, 2020. DOI: 10.4487/medchir2020-85-6

Affiliazione autori

Barbara Bacocco, Federica Delli Zotti, Maria Rita Infurna, Alessia Pozzi, Morena Sabella – ANVUR (Agenzia Nazionale di Valutazione del sistema Universitario e della Ricerca), Roma

Raffaella Rumiati – Scuola Internazionale Superiore di Studi Avanzati (SISSA), Trieste

Medicina e Chirurgia – Journal of Italian Medical Education

Quaderni delle Conferenze Permanenti delle Facoltà di Medicina e Chirurgia

Medicina alla prova. La validazione del Progress Test a cura dell’ANVURn.85, 2020, pp. 3788-3796, DOI: 10.4487/medchir2020-85-6