Dal Progress Test al Training Test: una prima elaborazione dei dati - Medicina e Chirurgia

Abstract

A Progress Test (PT), made up of 300 multiple-choice questions, has been administered every year to all the Italian medical students since 2006. In 2018, the PT has been redesigned to train the students (Training Test, TT) to afford the new postgraduate state examination. In accordance with this state examination, the TT is composed of 200 MCQ, 50 basic and 150 clinical. In order to fit the Italian Core Curriculum, the questions have been written by 59 Italian university teachers, and revised by 10 experts in medical education. At variance with PT, in TT the questions have not been grouped by disciplines but identified as learning outcomes based on sceneries as “the hospital ward”, “the ambulatory”, “the emergency room”, or “in local medicine”.
The affordability of the test has been granted by a Kuder-Richardson coefficient equal to 0.970, computed on 5184 6th-year students.
For each multiple-choice question, the Facility Index was obtained (number of correct answers/number of students). The average national Index varies from 0.65 (“in the hospital ward”) to 0.78 (“basic sciences”). The easiest questions (Facility Index = 0.735) were cognitive interdisciplinary quizzes, the most difficult (0.669) were problem solving-based questions.
As far as the question content is considered, 22 out of the 50 most difficult questions dealt with the interpretation ability and 17/50 with the ability of prescribing a therapeutic or diagnostic intervention.
The most difficult questions exhibited a wide variance in the distribution of correct answers in the different undergraduate curricula. Sometimes the variance is balanced, more often the questions appear as generally easy (or difficult) in all but a few curricula.
The Italian Conference of Undergraduate Medical Curriculum Presidents will distribute to the Presidents a table comparing, for each question, the average national facility index with the local average index, in order to allow the different courses to plan improvement strategies tailored on the difficulties registered in each course.

Articolo

Introduzione
Tra le azioni di maggior rilievo promosse dalla Conferenza Permanente dei Presidenti di CCLM in Medicina (CPPCLMM&C) si può inserire sicuramente la creazione ed implementazione del progress test (PT), un complesso di 300 domande a risposta multipla sottoposto a cadenza annuale contemporaneamente sul territorio nazionale a tutti gli studenti dei Corsi di Laurea in Medicina (dal 2006: Tenore et al., 2017) e in Odontoiatria e Protesi Dentaria (dal 2017: Crocetta et al,. 2018). Gli straordinari risultati ottenuti hanno ispirato gli estensori del D.M. del 9 maggio 2018, n. 58 del MIUR, in cui è enunciato che l’esame di Stato ‘assumerà la forma di un test con domande a scelta multipla non note in anticipo ai candidati’ (Lenzi et al., 2018). Il progress test è stato dunque ‘riprogettato’ per il 2018 in base a caratteristiche formali che lo hanno parzialmente avvicinato al nuovo esame di stato: composto da 200 domande, ripartite in 50 formulate su argomenti riguardanti le conoscenze di base, nella prospettiva della loro successiva applicazione professionale e 150 allestite su argomenti riguardanti la capacità di applicare le conoscenze biomediche e cliniche alla pratica medica ed alla risoluzione di una serie di problemi clinici. Il test di quest’anno è così diventato un training test (TT), ovvero un allenamento in vista del futuro esame di stato. Il passaggio dal progress al training test ha imposto una serie di modifiche nella sua preparazione. Obiettivo del training test è stato allenare gli studenti al superamento di un esame di stato nazionale e quindi non sono state estratte le domande attingendo a grandi e qualificate banche-dati internazionali ma è stato necessario attenersi strettamente al ‘core curriculum’ dei corsi di laurea in Medicina, elaborato dalla CPPCLMM&C (Gallo, 2018). A questo scopo la Conferenza ha impegnato tutti i Presidenti di CLM a fornire in modo riservato una serie di domande aderenti a ciò che effettivamente si insegna nei nostri CLM. Hanno contribuito a questo progetto ben 59 esperti disciplinari (che hanno redatto le domande a risposta multipla) e 10 esperti trasversali (che hanno confezionato il test). Il riferimento per la formulazione dei quesiti è stato il ‘core curriculum’, ovvero i contenuti dell’abituale insegnamento di ogni docente, ed i quesiti sono stati selezionati, seguendo il metodo ‘PUIGER’, ovvero scegliendo temi rilevanti per la Prevalenza del soggetto, o la sua Urgenza, o le possibilità di Intervento ad esso connesse, o la sua Esemplarità metodologica, o la sua Rilevanza sociale. Altra caratteristica essenziale nella formulazione delle domande è stata l’accessibilità alla risposta esatta per uno studente di ‘capacità-soglia’. Il TT infatti non è stato creato per individuare e selezionare una élite di studenti particolarmente meritevoli ma quale strumento di monitoraggio della preparazione complessiva del gruppo classe e, indirettamente, sulla capacità del docente di portare l’intera classe ad un livello base di conoscenza (Gallo 2018). Si è imposta, dunque, una sostanziale modifica rispetto al classico progress test, utile per valutare il progresso dell’apprendimento dello studente (o della coorte) da un anno di corso all’altro, necessariamente basato sulle discipline insegnate nei vari anni. Al contrario, il test previsto dal citato DM del 9 maggio 2018 si prefigge di valutare le competenze in uscita dello studente, quali la capacità di prendere decisioni e risolvere problemi e si preoccupa di controllare l’acquisizione delle scienze di base principalmente tramite la loro ricaduta sulla competenza clinica. Di conseguenza, nel TT, rispetto al PT, non solo è mutato il numero e la distribuzione delle domande ma si è imposta una contestualizzazione clinica delle stesse. Nel commissionare le domande di base si sono quindi privilegiate le formulazioni problematiche e nel redigere le domande cliniche non ci si è attenuti a criteri “per discipline” ma per quattro ‘macro-aree’ di contesto clinico: in nosocomio, in ambulatorio, in emergenza/urgenza e nel territorio. Obiettivo di questo articolo è una prima ela-borazione dei dati grezzi pervenuti dalle singole sedi la cui interpretazione dei risultati ci indicherà ‘quanto abbiamo colto nel segno’ (P. Gallo).

ANALISI
Valutazione dell’affidabilità della prova

L’affidabilità rappresenta la precisione di una misura: ciò che nella misura non è er-rore (Mucciarelli et al., 2002). La caratteristica fondamentale dell’attendibilità è la coerenza interna o omogeneità; tale caratteristica fa riferimento al grado in cui tutte le parti del test misurano allo stesso modo la variabile. Per misurare efficacemente un test è necessario che gli item ne esplorino i diversi aspetti e siano quindi coerenti tra loro; se questa coerenza manca, è probabile che essi misurino cose diverse e non contribuiscano perciò alla misurazione del fenomeno in studio. A volte nel progettare un questionario si può pensare di considerare più di una scala discreta incorporato in esso. La coerenza o consistenza interna di un test può essere valutata mediante analisi statistiche che misurano il grado di correlazione tra le variabili. Un’elevata consistenza interna indica che gli item esplorano le diverse facce di uno stesso fenomeno o che sono modalità diverse di descriverlo. Se infatti, un test si propone di misurare un concetto unitario, anche le sotto parti del test (ad es., gli item) devono misurare allo stesso modo la variabile misurata, devono dunque concordare. Per poter misurare il grado di coeren-za interna nel nostro caso è stato utilizzato il coefficiente di Kuder Richardson (Dancey et al., 2016) o KR20 che è stato applicato alle risposte di 5184 studenti del sesto anno inviate da 40 sedi, con un risultato, compreso tra zero ed 1, che risulta essere pari a 0,970 cioè è indicatore di ottima consistenza interna ed affidabilità della prova.

Il numero di partecipanti al PT è aumentato nei diversi anni accademici in forma espo-nenziale, passando da 3.496 studenti nel 2006 a 37.143 studenti in corso più 480 fuori corso per un totale di 37.623, nel 2018. Hanno infatti partecipato tutti i 49 corsi di studi erogati in lingua italiana ai quali si sono aggiunti 10 dei quattordici corsi di studi erogati in lingua inglese, con il conseguente aumento del numero delle risposte e della mole di dati da raccogliere ed elaborare. I dati sono stati raccolti dalle singole sedi su due matrici studente/domanda nella quale era riportato

il risultato della correzione [1, risposta esatta; 2, risposta errata; 3, nessuna risposta];
la risposta data dallo studente alla domanda [A; B; C; D; E].

I files sono stati poi inviati al Presidente della CPPCLMM&C per consentirne un’adeguata elaborazione. Ai dati grezzi pervenuti sono stati applicati gli Indicatori di Facilità / Difficoltà, la formula KR20 per la valutazione dell’affidabilità della prova e per ogni domanda (Qx) sono state calcolate le percentuali di risposte esatte per tutti gli anni, dal primo al sesto e per tutte le sedi pervenute.

Indicatori di facilità e difficoltà
Premesso che una misura è valida solo se riesce a cogliere il concetto che essa tende a rilevare e che accertare la validità di un test è più complesso che accertarne l’attendibilità (Dancey et al., 2016), una prima elaborazione alla quale sono stati sottoposti i dati grezzi è stato il calcolo degli Indici di facilità medi per gli studenti del V e VI anno. In psicometria l’indice di facilità di un quesito di una prova oggettiva di verifica misura la ‘resistenza’ che il quesito pone alla sua esatta risoluzione ed è dato dal numero di risposte corrette a quel quesito, diviso il totale delle risposte. Il risultato è compreso tra zero ed uno e quanto più si avvicina ad uno la percezione del quesito risulta facile, tanto più si avvicina allo zero, difficile.

Indicato, come da letteratura, un Ifac ideale per una domanda con scelta tra cinque risposte pari a 0,7 è evidente come si siano maggiormente approssimati a questo valore i risultati degli studenti del sesto anno rispetto a quelli del quinto. Il risultato di questo indicatore ha dunque confermato la piena accessibilità del test. Dal momento che il Test era stato predisposto in maniera tale da sollecitare prestazioni direttamente connesse agli obiettivi di apprendimento (validità), i risultati disaggregati, in particolare il coefficiente di variazione calcolato come il risultato della deviazione standard diviso la media (Cvar Tabella 1), potrà essere oggetto di analisi approfondita da parte dei singoli corsi di studi, sia per monitorare eventuali limiti di apprendimento su determinati argomenti oggetto di specifiche domande, sia per analisi di confronto sistematico con altri corsi (benchmark) o con eventuali prove di anni accademici successivi.

Tabella 1: Variazioni dell’indicatore di facilità per macro-area in funzione dell’anno di corso dello studente

Complessivamente, le domande di tutte le macro-aree sono risultate più accessibili agli studenti del VI rispetto a quelli del V anno, a conferma del progresso nell’acquisizione di competenze che si verifica nel corso degli studi. Lo scarto tra l’indice medio di facilità tra il V e VI anno risulta particolarmente elevato per la macro-area “Nascita e crescita” (da 0.67 a 0.77) e questo è in accordo con il fatto che tradizionalmente in Italia la Ginecologia e la Pediatria vengono insegnate nell’ultimo anno di corso. Merita attenzione anche l’incremento dell’indice di facilità che si registra per al-tre macro-aree (“In ambulatorio”, “In emergenza” e “Nel territorio”) a dimostrazione di come si aspetti spesso l’ultimo anno per un insegnamento della medicina “in situazione” in contesti diversi da quelli della corsia nosocomiale.

Indicatore di facilità in funzione della tipologia della domanda

Le domande del training test erano ricon-ducibili a tre diverse tipologie: domande conoscitive mono disciplinari (n=74), domande conoscitive interdisciplinari (n=42) e casi problematici, a carattere scientifico o clinico (n=84). Com’era lecito attendersi, l’indice di facilità per queste diverse tipologie è apparso differente (Tabella 2).

Tipologia della domanda	Numero di domande	Indice di facilità
Tutte	200	0,688
Conoscitiva monodisciplinare	74	0,684
Conoscitiva interdisciplinare	42	0,735
Casi problematici	84	0,669

Tabella 2: Variazione dell’Ifac in funzione della tipologia della domanda

Le domande risultate più “difficili” da risolvere sono stati i casi problematici, quelle più “facili” le domande conoscitive a carattere interdisciplinare. Ciò dimostra che gli studenti Italiani non sono ancora abbastanza allenati a ragionare “per problemi” ma, quando si vanno a verificare le loro conoscenze, appaiono meglio acquisite quelle che hanno imposto un ragionamento interdisciplinare.

Indicatore di facilità in funzione dell’argomento della domanda

Abbiamo voluto verificare se la tipologia di domanda utilizzata e il suo ambito culturale avessero un’influenza sulla “facilità” con la quale gli studenti hanno risposto. Per fare questo, abbiamo isolato il sottoinsieme delle domande “difficili” includendo tra le domande “difficili” quelle relative al 25° percentile delle domande con l’indice di facilità minore. Le 50 domande con indice di facilità più basso (25% sul campione di 200 domande) varia-vano tra un indice di facilità di 0.089 (il più basso) ed uno di 0.588.
Ventidue domande su 50 appartenevano alla classe di quesiti indirizzati a vagliare la capacità interpretativa dello studente, ovvero l’abilità di interpretare dei referti di laboratorio (10), radiologici (4), elettrocardiografici (2), ecografici (2), spirometrici (1), emogasanalitici (1) e perfino le risultanze dell’esame obiettivo (2).
Un altro gruppo corposo (17/50) di domande risultate difficili riguardavano quesiti sulla prescrizione di interventi terapeutici (13) o di esami strumentali (4).
Le rimanenti 11 domande cadute all’interno del 25° percentile potevano essere ricondotte a difficoltà differenti, come quella di interpretare nessi patogenetici (4) o di possedere rudimenti base di statistica o epidemiologia (2). In una sola domanda è ipotizzabile che lo studente sia stato tratto in errore dalla formulazione del quesito: si chiedeva quale tra le lipoproteine avesse la densità minore ma i distrattori non erano stati elencati in ordine di densità, come sarebbe stato lecito attendersi.
La difficoltà incontrata dagli studenti Italiani nel rispondere a domande atte a valutare la capacità interpretativa e quella di risolvere problemi (fare prescrizioni) mette in luce un limite non ancora superato nelle metodologie di insegnamento messe in atto nei CLM Italiani, che sono ancora troppo “teoriche” e sbilanciate a favore dell’acquisizione di competenze conoscitive rispetto alle abilità interpretative e alle meta-competenze cliniche.

Analisi della variabilità con cui è stata data una risposta esatta alle domande

Per ogni domanda è stata misurata la variabilità dell’indice di facilità riscontrato nelle diverse sedi. Per esempio, la domanda che ha fatto registrare la massima variabilità nel tasso di risposte esatte è stata la domanda 56 (Quale farmaco viene impiegato per la pro-filassi della condizione di Eclampsia?) che, nelle diverse sedi, è stata risolta da percentuali di studenti che variano dallo 0 all’87% La variabilità di risultato è stata espressa con tre parametri diversi: la varianza, la deviazione standard e il coefficiente di variazione. L’analisi dei dati ha dimostrato una stretta correlazione tra difficoltà di una domanda e variabilità con cui questa è stata accolta nelle diverse sedi.

Figura 1: Scatterplot con i valori dell’indice di facilità e della varianza delle singole domande

La figura mostra lo scatter plot delle diverse risposte collocate su di un piano cartesiano in funzione dell’indice di facilità (in ascissa) e della varianza nella distribuzione delle risposte (in ordinata). È evidente una correlazione lineare tra le due variabili: le domande più semplici sono quelle che hanno fatto registrare una varianza minore tra le sedi. Se si ragiona, ancora una volta, in termini di percentili di distribuzione, 43 delle 50 domande che rientrano nel 25° percentile delle domande con indice di facilità minore rientrano anche nel 25° percentile delle domande con coefficiente di variazione maggiore.

Diverse tipologie di variabilità

L’analisi delle 50 domande con maggior coefficiente di variazione (25° percentile) ha messo in luce che esistono due tipi di variabilità: una “asimmetrica” ed una “simmetrica”. La variabilità “simmetrica” è stata riscontrata in 14/50 (28%) domande (42, 44, 48, 50, 58, 64, 90, 93, 100, 121, 127, 159, 174 e 183): queste domande sono risultate, a seconda delle Sedi, ora molto difficili (indice di facilità < 0.30), ora difficili (IF >0.30 <0.50), ora facili (IF >0.50 <0.80) e perfino molto facili (IF > 0.80). Negli altri 36/50 casi la variabilità è stata “asimmetrica”, ma in due modi radicalmente opposti: in 20/50 (40%) casi le domande (1, 4, 13, 31, 40, 72, 77, 88, 95, 101, 111, 125, 130, 134, 144, 147, 156, 170, 172, 197) sono risultate generalmente facili con l’eccezione di un numero limitato (<10) di Sedi; in 16/50 (32%) casi le domande (14, 56, 86, 103, 104, 106, 119, 122, 124, 150, 168, 180, 189, 193, 195, 200) sono risultate generalmente difficili con l’eccezione di un numero limitato (<10) di Sedi.

Figura 2: Aerogramma che mostra la distribuzione nelle varie Sedi dell’indice di facilità di alcune domande

La figura mostra un diagramma “a radar” (aerogramma) dell’indice di facilità calcolato, nelle diverse Sedi, per alcune domande.
La domanda Q174 (in alto a sinistra) è un esempio di domanda che ha evocato una variabilità “simmetrica” come è evidente dalla variabilità dell’indice di facilità che oscilla da un minimo di 0.243 a un massimo di 0.889. Le domande Q95 e Q134 (in alto a destra) sono invece esemplificative di domande con variabilità asimmetrica con larga predominanza di indici di facilità elevati (il contorno della linea spezzata) e con alcuni picchi verso indici di facilità assai bassi. La domanda Q195 (in basso a destra) esemplifica l’andamento dell’indice di facilità per una domanda che va considerata generalmente difficile, con un indice di facilità che ha superato in pochissime Sedi il valore di 0.300. La figura in basso a sinistra mette invece a confronto il diagramma radar di una doman-da (la Q100) risultata generalmente facile ma con elevata variabilità (IF da 0.045 a 1.000) e di una (la Q189) risultata generalmente difficile ma con alcune punte di IF superiore a 0.400.

Domande difficili: il ruolo di distrattori “forti”

Alcune domande sono apparse evidentemente più difficili di altre. Ci siamo chiesti cosa abbia maggiormente contribuito alla difficoltà del quesito: la domanda in sé o l’efficacia di alcuni distrattori?
Nella tabella III sono state inserite le nove domande con indice di facilità più basso, ovvero quelle che sono state risolte positivamente da meno di un terzo degli studenti (indice di facilità < 0.33). Per ogni domanda è riportato in tabella il numero di risposte date per ciascun distrattore. Appare evidente che in 6 domande su 9 (le domande 56, 77, 122, 189, 193 e 195) la difficoltà è stata offerta da un “distrattore forte”, così plausibile da essere stato indicato come risposta corretta più spesso della risposta esatta. Nelle 3 rimanenti domande (la 86, la 104 e la 200) anche se la risposta indicata più spesso era effettivamente quella esatta, esistono altri distrattori forti che catalizzano circa il 30% delle risposte date (nella Q86 il distrattore D ha totalizzato il 29% delle risposte date, nella Q104 il distrattore C ha ottenuto il 29% e il distrattore D il 33% delle risposte espresse, e nella Q200 il distrattore D ha avuto il 30% delle risposte date). Se ne deduce che la maggiore difficoltà di alcune domande è stata provocata dalla presenza di “distrattori forti”, così plausibili da essere considerati la risposta esatta in percentuali elevate.

Uno strumento di lavoro
La analisi disaggregata degli indici di facilità Ifac (eseguita in fase iniziale solo per gli studenti del V e del VI anno) per singola domanda e per singola sede ha consentito di apprezzare una discreta variabilità tra le sedi degli indici di specifici quesiti. Da ciò nasce la proposta di fornire alle singole sedi che ne faranno richiesta un’analisi puntuale per ciascuna domanda di come è risultato l’indice di facilità per la sede nel raffronto con la media nazionale per lo specifico quesito. Un esempio è riportato nella Tabella IV.

Tabella 4: Indice di facilità riscontrato nella Sede al V e VI anno per ciascuna domanda, messo a raffronto con l’indice di facilità medio nazionale.

La tabella relativa ai primi 20 quesiti del Test 2018 per gli studenti del V e VI anno della sede in esame, riporta nelle colonne MEDIO il valore medio nazionale di Ifac e nelle colonne SEDE quello della sede in esame. Al fine di facilitare la lettura nella terza colonna è riportato graficamente, il rapporto tra il valore della sede e quello nazionale (pallino verde >1;
pallino rosso <0,85; pallino giallo compreso tra 0,85 e 1). Tale analisi consente a ciascuna sede di individuare aree o puntuali obiettivi di apprendimento per i quali esistono spazi di miglioramento nella pianificazione della didattica del corso di studi, al fine di utilizzare questo monitoraggio delle competenze e conoscenze acquisite per l’aggiornamento costante dell’offerta formativa, in un’ottica di miglioramento continuo (Requisito AVA R3.D, punto di attenzione R3.D.3)

Conclusioni
Attraverso la nuova elaborazione del PT / TT, acquisita la consapevolezza della solidità del nostro processo formativo il cui prodotto è la formazione della figura del ‘Medico nazionale’, forniamo uno strumento alle diverse sedi non solo sull’acquisizione di informazioni sulle competenze trasversali ma anche un’interpretazione delle competenze disciplinari. Il nuovo TT infatti è uno strumento di grande utilità sia per i singoli corsi di studio che possono individuare criticità e punti di miglioramento nella valutazione di prodotto sempre nell’ottica dell’implementazione del processo continuo di Assicurazione della Qualità, sia per gli estensori delle domande per migliorare l’affidabilità della prova.

Bibliografia

Crocetta C, Brindisi M, Lo Muzio L: Analisi dei Risultati del Progress Test 2017 dei Corsi di Laurea in Odontoiatria e Protesi Dentaria. Med. Chir. 78: 3487-3493, 2018.

Dancey C P, Reidy J G, Rowe R: Statistica per le scienze mediche, un approccio non matematico. Piccin-Nuova Libraria, Padova, 2016.

Gallo P: Cosa cambia con la laurea abilitante per la Professione medica Tra progress test e training test. Med. Chir. 79: 3524, 2018

Lenzi A, Familiari G, Basili S, Moncharmont B, Con-sorti F, Nati G, Della Rocca C, Gallo P: Progress /Training test 2018. Quesiti e risposte Med. Chir. 80: 3546-3574, 2018.

Mucciarelli G, Chattat R, Celani G: Teoria e pratica dei test. Piccin-Nuova Libraria, Padova, 2002.

Tenore A, Basili S, Lenzi A: Il Progress Test 2016. Med. Chir 75: 3386-3390, 2017.

Cita questo articolo

Recchia L., Montcharmont B., Gallo P., Dal Progress Test al Training Test: una prima elaborazione dei dati, Medicina e Chirurgia, 81: 3594-3600, 2019. DOI: 10.4487/medchir2018-81-1

Affiliazione autori

Laura Recchia – Coordinatrice U.G.Q. (Unità di gestione della Qualità) Corso di Laurea Magistrale in Medicina e Chirurgia, Università degli studi del Molise.

Bruno Montcharmont – Presidente del Corso di laurea Magistrale in Medicina e Chirurgia, Università degli studi del Molise.

Pietro Gallo – Gruppo di lavoro Qualità e Innovazione della Didattica, Università degli studi di Roma La Sapienza.

Medicina e Chirurgia – Journal of Italian Medical Education

Quaderni delle Conferenze Permanenti delle Facoltà di Medicina e Chirurgia

Dal Progress Test al Training Test: una prima elaborazione dei datin.81, 2019, pp. 3594-3600, DOI: 10.4487/medchir2019-81-1