I test con risposte a scelta multipla nel percorso formativo del medico - Medicina e Chirurgia

Articolo

Premessa e descrizione della situazione di contesto

I test con risposte a scelta multipla (Multiple choice question, MCQ) sono uno strumento di verifica dell’apprendimento e/o delle conoscenze che il futuro medico incontra in varie occasioni durante il suo percorso formativo. Sebbene non sia l’unica tipologia di verifica a cui il nostro studente viene sottoposto nel corso degli studi, questa è al giorno d’oggi sempre più utilizzata con differenti finalità: test di ammissione al corso, prove di autovalutazione intercorso, prove di esame di profitto, progress test, esame di abilitazione alla professione, prova di ammissione alle scuole di specializzazione. Un corretto allestimento di questo tipo di test ne può consentire l’utilizzo sia per la verifica dell’acquisizione di competenze conoscitive che di competenze interpretative e di competenze cliniche, anche se esso non si presta per la valutazione di altre tipologie di apprendimento quali ad esempio le cosiddette competenze trasversali (Descrittori di Dublino 3, 4 e 5) .

La versatilità dello strumento e la obiettività del risultato hanno favorito l’utilizzo dei MCQ in prove con finalità aggiuntive alla semplice valutazione del grado di raggiungimento di obiettivi formativi. Questa è il tipo di finalità di una prova costituita da una batteria di MCQ utilizzata in prove di autovalutazione in itinere o in esami finali di un corso o di un insegnamento e viene in genere corredata da una metrica (assoluta o relativa) correlabile al grado di raggiungimento degli obiettivi. Nel caso degli esami di profitto questo tipo di prova ha una valenza certificativa e non è strumento di valutazione comparativa tra probandi; nel caso del Progress test consente addirittura una valutazione longitudinale negli anni dello studente o della coorte .

Diverso è invece l’uso che si fa di una batteria di MCQ in un test di selezione, dove alla misura del risultato è richiesta una capacità discriminatoria tra candidati per un corretto posizionamento in una graduatoria .

Diverso ancora è l’uso dei MCQ in una prova di abilitazione, in cui è chiesto ai candidati l’individuazione della risposta esatta in un predeterminato numero di quesiti della batteria (cut-off). Appare quindi evidente che un utilizzo corretto di questo strumento di valutazione non può prescindere da una analisi preventiva delle caratteristiche di difficoltà e di discriminazione di ciascun quesito e del loro effetto combinato nella batteria di quesiti utilizzati, in funzione della tipologia di utilizzo che ne viene fatto. Non ultimo, a quest’analisi va attentamente definita ed agganciata la correlazione tra risultato del test ed esito della prova .

La scelta di uno strumento di rilevazione dipende in larga misura dagli obiettivi che abbiamo intenzione di raggiungere: gli obiettivi, assieme al contesto in cui si svolgerà la prova ed al tipo di interazione che si stabilisce tra chi eroga la prova e chi ne viene sottoposto, determinano la adeguatezza o la inadeguatezza dello strumento. Di conseguenza, non possiamo affermare in alcun modo che uno strumento sia buono in sé e, dunque, utilizzabile sempre e comunque; uno strumento è buono se aiuta a raggiungere il risultato che ci siamo proposti, riducendo al minimo gli errori e l’effetto di variabili concorrenti. Per scegliere o costruire lo strumento adeguato agli obiettivi, desiderati e prefissati, è necessario stabilire con esattezza le informazioni da raccogliere e le modalità migliori per proporre le domande. In questo caso il ragionamento si limita alle caratteristiche che debbono avere prove a scelta multipla per risultare efficaci al fine della rilevazione di conoscenze o abilità in situazioni di tipo formativo, in esami o in situazioni di concorso .

È necessario soffermarsi sul fatto che si tratta di tre diverse situazioni .

L’uso di test a scelta multipla per scopi formativi o in situazioni di ricerca ha l’obiettivo di misurare il possesso di abilità o conoscenze in una determinata popolazione o in un campione della popolazione .

In questo caso lo strumento deve essere in grado di misurare tutti i diversi livelli di competenza presenti, più o meno con lo stesso grado di precisione. Inconseguenza si richiede che la prova presenti una distribuzione normale della difficoltà delle domande, con numeri minori di domande di grande difficoltà o di minima difficoltà, tuttavia sufficienti per individuare tutti i diversi profili di abilità presenti nell’unità di analisi presa in esame .

In un esame relativo al profitto di un singolo corso il problema è diverso poiché siamo meno interessati a distinguere tra le abilità dei soggetti che hanno un profitto inferiore alla soglia di sufficienza e interessati invece a stabilire con accuratezza le differenze tra i soggetti che superano la soglia di sufficienza e a graduare le differenze tra loro. La curva di riferimento sarà dunque una curva ad asimmetria negativa, cioè il numero maggiore di domande dovrà avere difficoltà che si collocano al di sopra della soglia di sufficienza .

In un concorso ovviamente dipende dal numero di soggetti che si stima possano accedere alle posizioni messe a concorso e dal livello di padronanza degli argomenti previsti dal bando e dunque ancor più si dovrà accentuare il numero di domande necessario per selezionare in modo efficace pochi soggetti, tralasciando quelle necessarie per avere informazioni su soggetti di abilità inferiore .

Qualche considerazione sull’oggettività delle prove

Le prove a scelta multipla a volte vengono chiamate impropriamente prove oggettive in quanto riducono i margini di soggettività presenti in altri strumenti di rilevazione di abilità e conoscenze, la loro “oggettività” risiede nel fatto che la loro preparazione dovrebbe essere estremamente accurata e non il frutto del lavoro di pochi esperti .

La cosiddetta oggettività risiede nel fatto che un numero adeguato di esperti (esperti disciplinari ed esperti nella costruzione di domande) conviene nella correttezza delle domande e della risposta corretta alle domande e nella adeguatezza dei distrattori. Sempre la cosiddetta oggettività risiede inoltre nel fatto che a tutti i soggetti vengono poste le domande nelle stesse condizioni e nello stesso modo .

Quest’ultimo aspetto è in tempi recenti venuto a cadere di fronte alle esigenze di somministrare prove ad alti numeri di soggetti e di evitare fenomeni di collaborazione o di copiatura. I rimedi introdotti attraverso la variazione dell’ordine delle domande e delle alternative di risposta all’interno delle domande intaccano in parte il principio delle pari condizioni. Infatti se un test è necessariamente composto di domande di diverso livello di difficoltà uno studente che inizia la prova con le domande più difficili si troverà in una condizione diversa di uno studente che inizia la prova con domande più facili. L’impatto emotivo di iniziare a leggere domande di cui non si conosce la risposta può generare uno stato d’ansia che si ripercuoterà inevitabilmente sull’andamento della prova. Vedremo più avanti come eventualmente cercare di ovviare per il possibile a questa difficoltà .

Un test non è un test se non è testato

Un secondo problema è che una prova non può essere considerata utilmente spendibile se non è stata sottoposta ad una precedente taratura su un campione di soggetti con caratteristiche analoghe a quello sul quale dovrà essere utilizzata[1].

Un test funziona meglio se le persone non si sono preparate al test stesso

Un terzo problema deriva dal fatto che un test è tanto più efficace quanto meno le persone si sono preparate a rispondere a modelli analoghi di domande .

In presenza di repertori di domande da memorizzare, il rischio è che si misuri una capacità generale di adeguarsi alla prova e non le abilità o le conoscenze che dovrebbero essere oggetto di indagine .

Principali strutture dei test con risposte a scelta multipla

Valutazione delle competenze conoscitive

Le domande intese a valutare le competenze conoscitive sono certamente quelle più utilizzate nelle discipline relative alle scienze di base nel contesto specifico del corso di Medicina, come la chimica, la fisica, la biologia. Deve però essere tenuto presente che queste discipline, nei loro contesti specifici, possono assumere livelli di complessità molto elevata e tale da richiedere l’utilizzo di domande con valenza interpretativa .

Lo stesso binomio conoscitivo/interpretativo si applica alle altre discipline quali l’anatomia e l’istologia, la biochimica, la fisiologia, la genetica, la patologia generale .

Le domande di tipo conoscitivo sono quelle generalmente rivolte a ricordare singoli fatti che potrebbero essere utilizzati anche in contesti più complessi di tipo clinico; per questo motivo la composizione di tali domande non risulta per nulla facile, al contrario può far emergere difficoltà per la loro corretta elaborazione .

La stessa domanda può essere conoscitiva o interpretativa solo per il modo in cui viene posta .

L’esempio descritto da Case e Swanson (2002) chiarifica in modo esaustivo questo concetto:
Basic Science Recall Item Stem: What area is supplied with blood by the posterior inferior cerebellar artery?
Basic Science Application of Knowledge Item Stem: A 62-year-old man develops left-sided limb ataxia, Horner’s syndrome, nystagmus, and loss of appreciation of facial pain and temperature sensations. What artery is most likely to be occluded?

È del tutto evidente come la prima domanda sia esclusivamente di tipo conoscitivo, mentre la stessa domanda posta diversamente si presti ad una interpretazione clinica; è anche evidente come, in questo caso specifico, la prima domanda possa essere posta ad uno studente del secondo anno di corso che ovviamente non possiede nozioni cliniche oltre all’anatomia .

È ulteriormente evidente come la seconda formulazione debba essere posta ad uno studente del quinto/sesto anno di corso, già in possesso di un bagaglio conoscitivo e di capacità interpretative idonee per poter rispondere correttamente al quesito .

Le domande di tipo conoscitivo possono essere poste con l’uso di immagini o di disegni, che debbono però risultare ben leggibili anche quando il disegno o l’immagine sia stata fotocopiata: si deve tener conto che l’utilizzo di immagini a colori deve garantire una buona riproducibilità dei colori stessi attraverso le fotocopie (a meno che non si utilizzi per la somministrazione del test un’aula multimediale ed il computer o la videoproiezione). L’argomento del quesito deve essere rilevante per gli sviluppi futuri delle conoscenze di tipo clinico dello studente, mentre deve essere evitato l’uso di argomenti molto rari che difficilmente si incontreranno successivamente nella pratica clinica .

La domanda deve essere formulata in modo chiaro, evitando le doppie negazioni anche implicite; i distrattori debbono essere omogenei (plausibili, compatibili logicamente e della stessa lunghezza della risposta corretta) e non marcatamente difformi dalla risposta corretta. Quest’ultima dovrebbe essere la migliore risposta tra quelle elencate, cui lo studente dovrebbe poter giungere ragionando tra le diverse opzioni proposte .

Le opzioni proposte sono normalmente 5, con una probabilità di risposta corretta casuale del 20% .

Non debbono essere mai utilizzate domande in cui sia scritto “quale di queste affermazioni è quella corretta” oppure “ciascuna delle seguenti affermazioni è corretta eccetto…”, in quanto queste formulazioni appaiono generalmente confuse e possono essere rappresentate da opzioni del tutto eterogenee .

Nella valutazione delle competenze conoscitive, le domande qualitativamente migliori sono quelle in cui si richiede “l’applicazione della conoscenza”, su presupposti conosciuti al momento della somministrazione della domanda stessa, piuttosto che il richiamo diretto alla nozione che deve essere conosciuta dallo studente. Anche in questo contesto vi può essere una storia clinica o di laboratorio, ma queste debbono essere davvero brevi e significative. Essendo generalmente rivolte a studenti dei primi anni di corso, queste storie non debbono contenere nomi di sindromi o patologie, ma la descrizione di un tipo di deficit (molecolare, strutturale, funzionale ecc.) nel quale sia coinvolta l’alterazione di un gene, di una proteina, di un organulo cellulare, di una struttura anatomica, di un metabolismo, ecc. In tal modo non vi sarà solo il richiamo ad una singola nozione, ma lo studente vi arriverà sulla base degli elementi proposti nella domanda stessa .

Esempio:

Ad un uomo di 63 anni viene diagnosticata, in pronto soccorso, una ischemia dell’apice del cuore .

Si sospetta l’ostruzione di un ramo coronarico distale. In quale arteria dovrebbe essere localizzata l’occlusione?

a) Arteria coronaria destra
b) Arteria circonflessa sinistra
c) Arteria ottuso-marginale
d) Arteria discendente anteriore (interventricolare)
e) Arteria discendente posteriore (interventricolare)

Risposta esatta: d)

Valutazione delle competenze interpretative

Le domande intese a valutare le competenze interpretative possono essere utilizzate in qualsiasi macroarea del sapere medico, ma sono particolarmente significative in discipline come la medicina di laboratorio, la diagnostica per immagini, l’anatomia patologica, la medicina interna e le specialità mediche e la chirurgia generale e le specialità chirurgiche .

La capacità di interpretare può essere applicata – e valutata – in contesti diversi. Intanto si può valutare la capacità di interpretare immagini, siano queste radiologiche, scintigrafiche, ecografiche o anatomopatologiche (macro- e micro-scopiche), poste in un contesto clinico. Poi si può scrutinare la capacità di interpretare i risultati di esami di laboratorio. In questo caso l’illustrazione del contesto clinico risulta particolarmente importante, in quanto il medesimo dato può assumere significati differenti in contesti diversi. La capacità di interpretare può riguardare poi gli esami strumentali, dal tracciato ECGrafico al risultato di una spirometria o di una emogasanalisi. Si rimane nel campo dell’interpretazione anche nella capacità di estrarre significato clinico da un referto (radiologico, anatomopatologico, ecc). Infine, si può valutare la capacità di interpretare rappresentazioni grafiche, siano queste relative a test statistici o ad esperimenti scientifici .

La struttura del test è la medesima in tutti i casi .

La domanda si apre con una breve storia clinica che inquadra il problema da risolvere. Segue l’immagine (il tracciato, il set di esami di laboratorio, il grafico, ecc) da interpretare e, infine, vengono enunciate la risposta esatta e i quattro distrattori (ovviamente in ordine casuale) .

Esempio: Guglielmo, un ragazzone di 23 anni, gioca regolarmente a calcetto. Benché ci sia in famiglia un caso di morte improvvisa (un cugino, dopo una serie di sincopi, è morto improvvisamente), Guglielmo non si è mai sottoposto a controlli cardiologici .

Durante una gara un po’ più impegnativa del solito, Guglielmo va incontro ad arresto cardiaco sul campo di gioco. I tentativi di rianimarlo non hanno successo, e viene richiesto un riscontro diagnostico necroscopico. Il Patologo non osserva alterazioni extracardiache di rilievo ed esegue una sezione del cuore secondo un piano longitudinale che ricalca l’asse lungo ecocardiografico. In base all’osservazione dell’immagine qual è, tra le seguenti, la causa della morte?

a) ipertrofia eccentrica del ventricolo sinistro (cardiomiopatia dilatativa)
b) ipertrofia concentrica simmetrica del ventricolo sinistro (cardiopatia ipertensiva)
c) esteso infarto del segmento anterosettale del ventricolo sinistro (cardiopatia ischemica)
d) ipertrofia asimmetrica del setto interventricolare (cardiomiopatia ipertrofica)
e) endocardite ulcero poliposa infettiva della valvola mitrale (shock settico)

Risposta esatta: d)

Valutazione delle competenze cliniche

Idealmente la valutazione della competenza clinica (cioè di ciò che un medico è capace di fare) dovrebbe fornire informazioni sulla reale pratica clinica (cioè su ciò che un medico abitualmente fa quando non è osservato) come pure sulla sua capacità di adattarsi al cambiamento, di trovare e generare conoscenze nuove e infine di migliorare la propria performance. La competenza è per definizione contestuale in quanto riflette la relazione tra le abilità mobilizzabili da un individuo per il compito che è chiamato a risolvere in una determinata situazione reale. La pratica e la riflessione sulla propria esperienza sono dunque essenziali per lo sviluppo della propria competenza. È dunque difficile per definizione valutare la competenza clinica in un medico in formazione non ancora inserito appieno nella sua pratica professionale. Partendo tuttavia da una definizione generale di competenza (non necessariamente medica) come capacità di mobilizzare apprendimenti (conoscenze, procedure e logiche disciplinari) al fine di risolvere problemi e affrontare situazioni problematiche nuove e significative è possibile testare tale capacità nei vali livelli della formazione del medico sottoponendolo a test che comportano la risoluzione di problemi. La complessità dei problemi da risolvere deve essere adeguata al livello di preparazione raggiunto e alla possibilità di applicarsi nella pratica che sarà scarsa o del tutto assente nello studente di medicina e parziale nei momenti formativi successivi .

Le risorse attivate dalla competenza al fine di risolvere un problema sono, in realtà, non solo cognitive (conoscenze) ma anche fisico-corporee come le capacità percettive utilizzate ad esempio nella ispezione della semeiotica fisica e le abilità pratico-manipolative dell’esame obiettivo o delle manualità mediche. L’esame scritto e i test a scelta multipla si limitano a valutare sostanzialmente soltanto le risorse cognitive non potendo valutare abilità tecniche e manualità per le quali sono richieste altri tipi di valutazione. Tra le risorse cognitive valutabili, quelle decisionali e gestionali sono perfettamente adatte ad essere testate con tale metodologia di esame che risulta quindi appannaggio del secondo triennio della scuola di medicina quando lo studente ha acquisito non solo le conoscenze necessarie ma anche sufficiente metodologia clinica per tentare di risolvere problemi .

La struttura del test a scelta multipla è dunque la stessa con una sola risposta corretta e 4 distrattori plausibili ma errati. La domanda è però fortemente contestualizzata e quindi simile a un breve caso clinico in cui devono essere forniti con molta attenzione tutti gli elementi anamnestici, i dati funzionali e strumentali obiettivi attraverso cui lo studente può dimostrare di essere in grado di prendere una decisione come ad esempio di ricoverare o no un paziente, oppure di indicare una procedura diagnostica o terapeutica o di gestire un programma di controlli clinici e strumentali adeguato. È evidente che un test adatto a valutare competenze cliniche attraverso la capacità di risolvere un problema è di livello superiore rispetto ai test adatti a valutare conoscenze e le capacità interpretative: è infatti attraverso la mobilizzazione delle proprie conoscenze e capacità interpretative che uno studente risolve un problema clinico. Molto importante è contestualizzare il problema in termini di fattori come il luogo in cui si opera, la prevalenza locale e persino elementi come la natura e l’educazione del paziente se questi sono significativi per la soluzione e se si vogliono rendere i problemi da affrontare inerenti alla preparazione richiesta da parte del discente .

Un buon test per valutare competenze cliniche deve essere preparato chiedendosi: Che cosa voglio che lo studente dimostri di saper fare? In quali situazioni o compiti complessi? Quali apprendimenti di base (conoscenze, abilità) lo studente dovrà attivare per risolvere il problema? Un livello ancora superiore per valutare la competenza sarebbe quello di testare la capacità dello studente a risolvere situazioni-problemi per lui nuovi in cui cioè non tutte le conoscenze necessarie sono state trasmesse ma che possono essere dedotte da quelle a sua disposizione .

Esempio di problema clinico concepito per studenti del corso di Patologia Integrata III (IV anno):

Un paziente di 63 anni da qualche giorno si lamenta di dolori lombari. Ieri pomeriggio accusa lieve giramento di testa. Questa notte alzandosi dal letto accusa ancora vertigine e senso di profonda astenia. Alle 5 di questa mattina chiama la guardia medica che lo visita senza trovare nulla di rilevante a parte una modesta ipotensione. Per questo motivo consiglia comunque il ricovero. Nel venire in ospedale il paziente presenta vomito ematico e al pronto soccorso una abbondante evacuazione .

Al Pronto soccorso il paziente presenta: Pressione arteriosa 120/70 mm/Hg in clinostatismo e 100/55 mm/Hg in ortostatismo; Frequenza cardiaca 120 b/min; pallore e sudorazione; le feci emesse sono nere e liquide .

Il paziente è affetto da:

a) emorragia digestiva inferiore di lieve entità
b) emorragia digestiva superiore di grave entità
c) emorragia digestiva inferiore di grave entità
d) emorragia digestiva superiore di lieve entità e) emoperitoneo di lieve entità Questa domanda valuta capacità interpretative .

Risposta corretta b)

Una volta stabilizzato il paziente richiedete:

a) EGDS
b) colonscopia
c) TAC addome con m.d.c
d) Ricerca del sangue occulto fecale
e) Rx diretta addome Questa domanda valuta capacità decisionali, conseguenti a corretta interpretazione .

Risposta corretta a)

Analisi docimologica dei test , validazione dei test e correlazione all’esito

La validità di una prova a scelta multipla

La validità di uno strumento di misura indica se esso è idoneo alla misurazione delle caratteristiche che si intende sottoporre a misura o meglio il grado in cui evidenze empiriche e teoria supportano le interpretazioni dei punteggi del test per gli usi che ci si era proposti di raggiungere con il test stesso (Standards for Educational and Psycological Testing 2014, p. 11).

In questa prospettiva viene considerata superata l’idea di parlare di validità di uno strumento perché lo stesso strumento può essere utilizzato per scopi diversi e dunque è necessario verificarne la validità in relazione agli obiettivi ed ai diversi contesti in cui la prova verrà utilizzata. La validità di uno strumento viene tradizionalmente controllata rispetto ai contenuti, ai criteri, al costrutto, all’aspetto ed inoltre è necessario valutare la validità rispetto allo scopo e ai risultati attesi .

Validità di contenuto

Verificare la validità dei contenuti di una prova significa confrontare lo strumento con i modelli teorici (costrutti) che sono alla base della nostra ricerca e in particolare con scelta, la classificazione e la operazionalizzazione dei concetti relativi alle conoscenze o abilità o competenze prese in esame. Per valutare la validità del contenuto è necessario chiedersi se gli argomenti trattati in una prova costituiscono un campione rappresentativo delle capacità e delle conoscenze da verificare e se queste conoscenze rispondano alle interpretazioni e/o alle decisioni che si intendono assumere sulla base dei risultati della prova. Questo richiede in primo luogo una accurata definizione delle tematiche della prova che in genere vengono poi articolate per aree tematiche e per livelli di difficoltà .

Su questo modello si procederà poi alla scelta del numero delle domande previste per ciascuno degli aspetti presi in considerazione ed alla scelta del livello di difficoltà atteso per i diversi item. Se le domande misurano un in-sieme unitario di conoscenze, abilità, competenze ci aspetteremo che il loro insieme abbia un alfa di Cronbach[2]con valori che superino lo 0.80 e che si presenti con un modello unifattoriale[3].

Tuttavia non disponiamo di un criterio statistico sufficiente per stabilire il punto in cui una misura ha raggiunto la validità nel contenuto ed è perciò utile «un appello alla ragione relativo alla adeguatezza con la quale i contenuti sono stati campionati e alla adeguatezza con la quale il contenuto è stato organizzato nella forma di itemdel test» (Nunnally, 1964, trad. it. p.73) .

Uno dei problemi che si incontrano in proposito è l’assenza di riferimenti certi sulla mappatura delle aree di contenuto. Il problema è ovviamente più serio nei concorsi che chiedono di selezionare persone provenienti da curricula diversi, come nelle prove di accesso o in prove a cui partecipano candidati provenienti da diversi corsi di laurea e che non hanno sostenuto gli stessi esami e o i cui esami prevedevano contenuti non omogenei.

Spesso nelle prove di accesso di area medica vengono previste domande di cultura generale. Questa espressione non rimanda ad alcun insieme di contenuti mappabile o operazionalizzabile, tutto è cultura e ancor più cultura generale, senza specificazioni, delimitazioni e indicazioni le domande di cultura generale non possono essere considerate tecnicamente valide .

Validità di criterio

La procedura di convalida mediante criterio implica il ricorso a una misura effettuata con procedure diverse e indipendenti che si ritiene siano pertinenti rispetto a ciò che si vuole misurare. Il criterio può essere, per esempio, il punteggio in un altro test, il punteggio a un esame, una classificazione o ancora la misura di esiti attesi a distanza di tempo .

Così, per stabilire la validità di una prova a scelta multipla, si possono confrontare i voti o i giudizi attribuiti da un insegnante in modo autonomo agli stessi allievi relativamente alla abilità in esame con i risultati ottenuti alla prova che è stata costruita[4]. Se i due punteggi presentano un andamento simile (correlano), si può dire che la prova messa a punto ha una validità mediante criterio .

Esistono due metodi per rilevare la validità in rapporto a un criterio: quello concorrente e quello predittivo .

La “validità concorrente” si riferisce a misure fatte in modo sincronico. Nel nostro esempio, quindi, se l’insegnante interroga gli studenti nello stesso periodo in cui si somministra la prova o alla somministrazione di due prove che dovrebbero misurare le stesse abilità o conoscenze .
La “validità predittiva” si riferisce, invece, alla capacità di una misura di prevedere eventi futuri .

Così, per poter stabilire se uno strumento è valido da questo punto di vista, è necessario confrontare i risultati ottenuti grazie al suo utilizzo con quelli che saranno ottenuti in un periodo successivo all’applicazione dello strumento. Per esempio, nel caso di una prova messa a punto per selezionare gli allievi che si immatricolano ad un determinato corso di studi universitari, vi dovrebbe essere una corrispondenza tra i risultati ottenuti dagli allievi nella prova in questione e il rendimento degli stessi allievi nella successiva carriera di studi. «Tuttavia determinare la validità o meno di una tecnica da questo punto di vista presenta una difficoltà: non è facile, infatti, stabilire in base a quali criteri misurare i risultati ottenuti […] in quanto gli stessi esperti possono avere opinioni diverse per quanto riguarda i criteri in base ai quali misurare il successo » (Lovell-Lawson, 1970, trad. it. p.83). Inoltre è presente il rischio che l’eventuale correlazione sia il frutto di fattori estranei allo specifico della prova ad esempio abilità linguistiche generali o fattori di cultura generali dovuti all’estrazione sociale degli esaminati .

Validità di costrutto

La validità di costrutto si riferisce alla bontà di uno strumento giudicata sulla base di quanto i risultati raccolti con l’impiego di uno strumento hanno senso in relazione alle nostre teorie. La validità del costrutto si può dunque definire come il grado in cui uno strumento misura un tratto che in qualche modo esiste (Boncori, 1993). Tale validità è accertabile solo se disponiamo di un modello teorico in grado di spiegare la relazione tra il possesso di determinate abilità e particolari comportamenti osservabili. Se, ad esempio, una prova che segue uno specifico insegnamento non indicasse alcun miglioramento nelle tematiche in questione, essa cadrebbe nel sospetto di mancanza di validità nel costrutto, perché si ha ragione di supporre che l’insegnamento dovrebbe comunque avere un qualche effetto sulle abilità degli studenti (Lucisano, 1989, p.65) .

Validità di aspetto

Si parla di validità di aspetto, esteriore o a vista, per riferirsi alle caratteristiche di uno strumento così come viene valutato da parte di persone che non hanno una grossa esperienza di strumenti di misurazione .

Se, ad esempio, una prova di lettura propone domande che risultano fuori luogo per le persone cui è destinata (è il caso di domande che appaiono troppo facili, troppo difficili o inappropriate) l’aspetto della prova finisce per condizionare la sua validità. Infatti, se uno strumento appare troppo facile verrà affrontato con superficialità, se appare troppo difficile con timore, se appare inappropriato con perplessità o resistenze .

Validità interna ed esterna

Tale controllo non riguarda in realtà lo strumento, ma il problema più generale del significato da attribuire al risultato di una ricerca e in particolare al rapporto che esiste tra la relazione trovata nei dati osservati fra le variabili osservate e la relazione effettivamente esistente nella popolazione .

L’esame della validità interna serve a controllare se effettivamente la relazione tra due variabili sia causata da quelle variabili e non da altri fattori. Essa perciò è relativa alla correttezza della ricerca, alla accuratezza del controllo .

L’esame della validità esterna riguarda, invece, la possibilità di generalizzare i risultati ottenuti alla popolazione di riferimento. In altri termini, serve a controllare che la relazione tra le variabili prese in considerazione sia la stessa anche al di fuori dello specifico contesto in cui è stata effettuata la ricerca e se è quindi possibile considerare validi quei risultati in situazioni diverse da quelle dello studio originale[5].

L’affidabilità di uno strumento

Quando si ripete più volte una misura e si ottiene lo stesso risultato si dice che la misura è affidabile, attendibile o fedele. L’affidabilità si riferisce quindi alla costanza della misura di una data prestazione. L’importanza del concetto di affidabilità deriva dal fatto che, se uno strumento è attendibile nei risultati, si può essere sicuri che le variazioni che si verificano nei dati raccolti non dipendono da imperfezioni dello strumento utilizzato, ma dal mutare del fenomeno. Nelle ricerche in campo educativo, non differentemente da quelle fisiche e naturali, la ripetizione della stessa rilevazione darà difficilmente un risultato assolutamente identico a quello precedente sia perché le condizioni non sono mai assolutamente identiche sia per la presenza dell’errore casuale .

Aldo Visalberghi a tal proposito scrive: «Non c’è nulla di assolutamente misurabile. Se molte misurazioni fisiche risultano perfettamente uguali ciò non significa che la nostra capacità misurativa al riguardo è perfetta, bensì, tutto al contrario, che il nostro strumento di misura non è abbastanza sensibile per il lavoro che stiamo facendo. Ogni misurazione è una media» (1965, p.77) .

Il controllo dell’errore casuale viene effettuato mediante la ripetizione della rilevazione. Ovviamente la ripetizione della misura è facile quando si tratta di misurare due volte uno stesso oggetto, ma è assai complessa quando ci si riferisce a misure di prestazioni di soggetti. In ogni caso la prima misura che si effettua costituisce comunque uno stimolo che modifica il soggetto, il quale ad esempio può apprendere dalla prima prova a cui è stato sottoposto .

La validità e l’affidabilità degli strumenti di rilevazione sono strettamente connesse al controllo di altri elementi che possono interferire sulla loro precisione (Boncori, 1993). È bene che gli stimoli che costituiscono uno strumento di misura siano: 1 chiari e precisi. Se, ad esempio, una domanda di un questionario è formulata in modo da suscitare dubbi o fraintendimenti nell’interpretazione è ovvio che essa non potrà essere né valida né affidabile; 2 leggibili dal punto di vista formale/grafico. Non deve presentarsi alcun ostacolo formale che possa influire sulla qualità delle risposte raccolte; 3 verbalmente ridotti. Le istruzioni, le domande, le risposte (laddove previste) non devono essere troppo lunghe tanto da distrarre o da inserire altri tipi di difficoltà rispetto al compito richiesto .

Item-analisi di una prova a scelta multipla

Per costruire una prova a scelta multipla non è sufficiente seguire le regole sopra enunciate, ma è necessario sperimentare lo strumento su un campione della popolazione a cui è diretto e quindi procedere a un esame dei dati empirici ricavati. In questo paragrafo presenteremo le procedure utili a verificare l’efficacia di una prova e, in particolare, il funzionamento dei quesiti, ossia il funzionamento delle risposte esatte e dei diversi distrattori, che compongono una prova (item analysis), e faremo alcuni accenni alle procedure per una lettura complessiva dei dati[6].

Chiamiamo item-analisi l’insieme delle tecniche che permettono di ricavare informazioni sulla affidabilità di una prova nel suo complesso e sul funzionamento di ciascuna delle domande proposte. Questa analisi richiede di effettuare una prova pilota (try-out) su un campione sufficientemente ampio di soggetti con caratteristiche simili a quelle della popolazione sulla quale intendiamo lavorare[7]. Le tecniche di item-analisi muovono tutte dall’assunto che, se la prova nel suo complesso costituisce una misura di una dimensione unitaria, le singole domande e i singoli soggetti dovranno avere un comportamento coerente. Ci si aspetta dunque che i soggetti di un certo livello di abilità rispondano bene a quelle domande a cui rispondono soggetti con analoga abilità e male a domande che richiedono una abilità superiore. Parimenti ci si aspetta che a domande di un determinato livello di difficoltà rispondano bene i soggetti che rispondono bene fino a quel livello e non altri .

Il modello a cui ci ispiriamo è noto come modello di Guttman .

Per effettuare questa analisi possiamo ricorrere a modelli diversi che fanno capo a due impostazioni: la prima nota come CTT (Classical Test Theory) che risale agli studi sviluppati all’inizio del secolo scorso e la seconda nota come Item Response Theory[8]che prende le mosse dal modello sviluppato negli anni Sessanta da Rasch[9].

L’analisi degli item si sviluppa a partire dai punteggi grezzi ottenuti dai soggetti che hanno risposto alla prova[10]e si basa sulla identificazione dei valori di facilità[11]e di discriminatività[12]delle singole domande e sul calcolo della loro coerenza con il test .

Al di là delle discussioni teoriche, il modello di Rasch a un parametro fornisce graduatorie sostanzialmente analoghe a quelle che si ricavano con il metodo tradizionale, risultano invece più sgranate le graduatorie che si ottengono con i metodi sviluppati più recentemente che introducono nel calcolo del peso degli item e della abilità dei soggetti parametri diversi quali la discriminatività o il la considerazione della probabilità di indovinare la risposta corretta. Sia il metodo tradizionale sia il metodo di Rasch in presenza di unità di analisi ampie e di un numero limitato di domande infatti forniscono risultati con blocchi molto ampi di soggetti a parità di punteggio. Il modello a due parametri invece tende a sgranare i risultati e dunque a fornire indicazioni che rendono più facile operare tagli in una graduatoria .

L’attribuzione di un punteggio

Di norma se si segue il modello della CTT si usa attribuire un punteggio grezzo 1 alle domande corrette e 0 alle domande errate. Le prove si possono correggere: a) contando le sole risposte corrette; b) penalizzando l’errore. In questo caso la correzione delle prove può avvenire sottraendo alle risposte errate una frazione di punteggio pari alla probabilità di rispondere bene a caso a ogni singolo quesito. La formula utilizzata per la correzione del punteggio in base alla possibilità di individuare la risposta corretta casualmente è la seguente:

formula -77

dove:
Pe = Punteggio con penalizzazione dell’errore
e = Numero di risposte esatte
s = Numero delle risposte sbagliate
n = Numero delle risposte da scegliere per ogni quesito

La attribuzione di un peso agli errori introduce tuttavia un elemento di disturbo psicologico penalizzando gli studenti insicuri .

Se si segue il modello della IRT invece il punteggio di abilità è calcolato automaticamente dal programma che pesa la difficoltà degli item e attribuisce un punteggio di abilità in base alla probabilità del soggetto di rispondere alle domande di un determinato livello di difficoltà .

Sull’uso delle procedure statistiche per la definizione e l’interpretazione dei risultati di un test si è sviluppato un ampio dibattito che ha messo in discussione la validità del modello di Rasch a partire dalla critica del modo in cui è stato utilizzato dall’INVALSI e dal PISA, si tratta di una discussione che mette in evidenza i limiti dei modelli statistici e che tuttavia rimanda anche ai presupposti pedagogici e psicologici che sovraintendono alla misura di tratti latenti tramite procedure basate su domande (Rogora 2014a, 2014b, Miceli 2014) .

Standard o criterio

Nell’uso dei punteggi ricavati da una prova a scelta multipla si pone il problema della definizione delle soglie. Quale punteggio può essere considerato adeguato o inadeguato in relazione agli obiettivi che ci siamo proposti? In generale i test sono nati per ampie rilevazioni tanto che nel nome si usava definirli test standardizzati. Il concetto di standardizzazione definisce le soglie sulla base dell’andamento medio dei risultati nella unità di analisi presa in esame. Il modello tradizionale usato nell’uso scolastico delle prove fa riferimento alla distribuzione pentenaria. Il modello delle prove standardizzate prevede una taratura su grandi campioni tale da definire standard che potranno poi essere il riferimento nell’uso successivo su unità di analisi di diverse dimensioni .

Diversa è l’impostazione dei test di criterio. Per queste prove le soglie vengono definite a priori e dunque sono indipendenti dalle dimensioni e dalle caratteristiche dell’unità di analisi scelta. Il criterio può essere riferito all’intera prova o alle singole parti della prova, nel caso di un test che contenga più dimensioni (ad esempio il 75% del punteggio teorico e non meno del 50% di ogni singolo subtest). Se si usa la modalità standard in assenza di una adeguata taratura si corre il rischio di avere soglie che si spostano di somministrazione in somministrazione e di determinare una situazione nella quale in presenza di candidati con punteggi molto bassi le soglie si abbassano ed in presenza di candidati eccellenti le soglie si alzano .

È evidente, tuttavia, che in assenza di una conoscenza adeguata degli standard di prestazione di una popolazione la predeterminazione di soglie criterio corre il rischio di collocare i valori di soglia attesi e pretesi troppo in alto o troppo in basso rispetto alle caratteristiche reali della popolazione esaminata .

In ambito scientifico in genere le soglie vengono definite a seguito di tarature che consentono una conoscenza sia pure empirica della distribuzione del tratto osservato nella popolazione esaminata. Queste osservazioni portano alla considerazione che in assenza di una preventiva taratura la definizione di soglie è un’operazione che comporta rischi molto alti in relazione al conseguimento di un obiettivo definito .

I test per valutazione formativa, certificativa, di abilitazione e di ammissione

Premesse

È possibile trovare molte definizioni diverse di valutazione, provenienti da domini disciplinari diversi e con accenti ora sul suo essere un’attività sociale e contestualizzata, ora sulla centralità della comparazione con uno standard. Ma in tutte le definizioni è presente – più o meno esplicitamente – l’idea che la valutazione ha sempre uno scopo. Gli scopi sono inerenti al processo valutativo e caratterizzano in maniera decisiva forme e tempi della valutazione, tanto che valutare uno stesso oggetto (ad es. uno studente), esaminato con uno stesso metodo (ad esempio quesiti a scelta multipla), può dar esito a giudizi valutativi anche molto diversi, in funzione di scopi diversi .

In questa sezione esamineremo brevemente quali caratteristiche della valutazione cambiano se si effettua una valutazione formativa, certificativa, di abilitazione o di ammissione. Limitatamente ai quesiti a scelta multipla, analizzeremo le caratteristiche docimologiche, i tipi di contenuto e i tempi. La sezione precedente ha descritto in maggior dettaglio cosa si intenda per caratteristiche docimologiche di un test: in questa parte faremo uso dei concetti di indice di difficoltà e di discriminazione e del concetto di soglia .

Rimandiamo quindi alla sezione precedente per la discussione del concetto di soglia e la definizione di “difficoltà” di un singolo quesito .

Prima ancora di entrare nel dettaglio dei quattro diversi scopi elencati nel titolo, vorremmo proporre qui un metodo per definire il mix di domande da ideare, diverse quanto al tipo di contenuto. Sono stati definiti 5 tipi di contenuto:

conoscenza dei termini: terminologia tecnica e definizioni;
conoscenza dei fatti: descrizione di strutture e processi, elenchi di sintomi/segni, indicazioni e controindicazioni, correlazioni, …;
conoscenza di regole e principi: leggi di funzionamento, meccanismi giustificativi dei fatti di cui al punto 2, linee guida, euristiche, …;
capacità di effettuare trasformazioni e adattamenti: passare dal particolare al generale, porre in relazione fatti/concetti apparentemente distanti;
capacità di effettuare applicazioni: ipotizzare, diagnosticare, prescrivere, gestire, progettare, educare, …

Non è difficile assegnare ogni tipo di contenuto ad una delle classi di obiettivi proposte in precedenza e relativi alle competenze conoscitive, interpretative, cliniche. È possibile infine costruire una tabella le cui colonne sono intestate ai 5 tipi di contenuto, mentre le righe sono costituite dagli elementi del programma di un corso specifico. In funzione degli obiettivi prevalenti di ogni corso, i docenti potranno stabilire le percentuali di tipo di contenuto da esplorare. Stabilito il numero di quesiti che si vogliono somministrare agli studenti possibilmente anche il “peso” relativo di ogni elemento di programma, ne consegue con un semplice calcolo di equivalenza il numero di domande per tipo e per argomento. A solo titolo di esempio, si riportano tre “contenuti” di tre corsi diversi, ipotizzando una diversa distribuzione delle percentuali .

Schermata 2018-05-03 alle 14.23.32

La valutazione formativa

È la valutazione che ha lo scopo di fornire informazioni di feedback sia agli studenti che ai docenti circa l’andamento dell’apprendimento durante il corso.

Per questo è detta anche valutazione “in itinere”, perché è effettuata a più riprese nello svolgimento del semestre, in modo coordinato con il procedere del programma. Il bilanciamento dei tipi di contenuto rifletterà perciò gli argomenti affrontati, con le quote che si modificheranno nel tempo fino al livello stabilito dal docente come target finale. Parimenti la difficoltà e discriminatività delle domande tenderà a salire gradualmente. In questo tipo di valutazione è opportuno usare anche domande abbastanza facili, su argomenti fondamentali, che servano da “soglia di allarme”: un errore a queste domande segnala l’esistenza di un problema potenzialmente grave .

Va considerata formativa anche la valutazione “di ingresso”, da eseguire all’inizio di un corso o di un modulo e destinata a sondare le pre-conoscenze ritenute necessarie ad affrontare il nuovo programma .

Fornisce un feedback essenziale al docente, relativo alla necessità di recupero di contenuti non ritenuti dai corsi precedenti. Deve essere limitata ai primi due o tre tipi di contenuto della griglia proposta .

La valutazione certificativa

È la valutazione che ha lo scopo di produrre il voto d’esame o di contribuire ad esso. Si effettua alla fine del corso stesso, con un mix equilibrato dei diversi tipi di contenuto in funzione degli obiettivi stabiliti per il corso stesso: più sbilanciato verso i tipi 1-3 per le discipline contributive, verso i tipi 3-5 per le discipline nosografiche e cliniche. A meno che non ci siano motivi particolari stabiliti dal docente (ad es. aver esplicitamente condotto percorsi di recupero), questa valutazione, specie per gli insegnamenti clinici, non dovrebbe contenere domande su contenuti contributivi. La loro conoscenza può venir inferita dalle risposte alle domande di tipo 4. Questo in certa misura è vero anche per le discipline di base, quando presumano a loro volta un insieme di pre-conoscenze derivate da altri corsi (ad es. da chimica per biochimica) .

Dal punto di vista docimologico questo tipo di valutazione deve misurare il grado di raggiungimento degli obiettivi cognitivi del corso, quindi un “buon” corso dovrebbe attendersi una distribuzione dei punteggi tendenzialmente a J più che gaussiana. Un mix equilibrato di domande a diverso indice di difficoltà contribuisce a questo scopo. La trasformazione della percentuale di risposte esatte in 30imi non può essere fatta con la semplice equivalenza (30/30 domande esatte = 30) ma tenendo conto di fasce di distribuzione meno rigide, come la già ricordata distribuzione pentenaria. L’ideale sarebbe aver validato in anticipo le domande su un campione di convenienza, così da conoscere la media e la distribuzione della performance attesa .

Valutazione per abilitazione

Si tratta della batteria di quesiti destinati a far parte dell’esame di abilitazione all’esercizio della professione medica. Lo scopo dichiarato perciò è verificare il superamento della soglia minima richiesta per essere un medico affidabile, competente, consapevole del suo ruolo sociale .

È evidente che questo tipo di test debba avere un prevalente contenuto applicativo, fortemente sbilanciato sui tipi 4 e 5, non solo per le discipline cliniche ma anche per quelle legate agli altri aspetti della professionalità nel contesto nazionale, come quelli relativi alle norme legali, all’organizzazione del sistema delle cure, alle regole deontologiche ed etiche, alle caratteristiche epidemiologiche della popolazione italiana .

Va sottolineata l’importanza del non limitarsi a valutare la conoscenza di definizioni e fatti, ma insistere con le domande che esplorano la capacità di usare quella conoscenza, cioè la competenza. Qui si tratta di valutare – pur nei limiti dello strumento quesiti a scelta multipla – il possesso dell’idoneità al fare e all’essere medico, con una decisione si/no. La definizione della soglia è perciò elemento particolarmente critico e necessita di un set di quesiti ben collaudato, con caratteristiche docimologiche note: l’ideale sarebbe avere quesiti in grado di discriminare quella quota minoritaria di candidati che necessitano di un ulteriore anno di consolidamento della competenza minima richiesta. I contenuti delle domande devono rispecchiare quanto più fedelmente possibile il core curriculum nazionale, che negli anni è evoluto con l’apporto non solo dei corsi di laurea ma anche di molte istanze provenienti dal variegato panorama nazionale della professione .

Valutazione per l’ammissione

La valutazione per regolare l’accesso ai corsi di laurea di medicina è un problema sentito in tutto il mondo (Patterson et al., 2016; Prideaux et al., 2011). Per questo uso forse più che per tutti gli altri è vero che il processo di valutazione è un processo contestualizzato all’interno di valori sociali. Infatti si tratta di stimare la probabilità che un candidato da lì a sei anni si sarà dimostrato un buono studente di medicina e – più ancora – che sarà un buon medico. Quali caratteristiche di “potenzialità” deve avere un futuro buono studente o un buon futuro medico? È evidente l’estrema aleatorietà di questa sfida, che si gioca su una quantità tale di fattori da rendere l’attività di selezione una delle decisioni più complesse che esistano fra le attività di valutazione sociale. Poiché l’accesso è molto ambito, entrano in gioco anche questioni di giustizia ed equità sociale: si sta garantendo a tutti la stessa probabilità a priori di riuscire del test di selezione? È fuori dagli scopi di questa pubblicazione descrivere più in dettaglio l’argomento, trattato in maniera estesa nell’articolo scritto da Familiari et al. (2014) per la rivista della Conferenza. Rimanendo fedeli all’impostazione data per gli altri scopi della valutazione, esaminiamo brevemente ora le caratteristiche docimologiche e i contenuti dei quesiti a scelta multipla, ribadendone i limiti di strumenti in grado di misurare solo conoscenze teoriche ed alcune abilità intellettive .

A differenza della valutazione di abilitazione, destinata a certificare il superamento di una soglia, in questo caso si vuole ottenere una graduatoria, attraverso la misura di costrutti necessariamente diversi e legati sia alla conoscenza di termini, fatti e regole, sia ad alcune capacità intellettive, come quelle cosiddette logiche. Sarà quindi necessario predisporre una miscela di quesiti di difficoltà media ed alta ma livellati a quanto si può supporre sappia uno studente diplomato di scuola superiore, sulla base dei programmi di studio nazionali. I temi possono essere quelli che vanno dalle scienze fisiche, chimiche e biologiche, a conoscenze socio-economiche relative alla popolazione italiana, a nozioni di base di psicologia, mentre sembrano onestamente poco rilevanti quesiti che esplorino le cosiddette conoscenze culturali generali o meno ancora le conoscenze dell’attualità .

Correlazione dei quesiti al core curriculum

Il Core Curriculum della Conferenza permanente dei Presidenti di Corso di Laurea Magistrale in Medicina e chirurgia (facilmente accessibile/consultabile in quanto presente on-line sul sito della Conferenza) è strumento utile a rendere omogenei a livello nazionale gli obbiettivi di apprendimento dei CLMMC fornendo ai singoli corsi di laurea una traccia da seguire, in completa autonomia decisionale, per la costruzione dei propri curricula, adattando il risultato finale alle caratteristiche peculiari di ogni sede. Nella sua versione attuale è costituito da 1659 Unità Didattiche Elementari (UDE), intese come “particelle del sapere medico con un contenuto tematico circoscrivibile e coerente, caratteristiche didattico-pedagogiche omogenee, descritte in un linguaggio comprensibile in modo univoco dagli studenti e dai docenti e verificabili”, raccolte in 4 Aree di Apprendimento che in qualche modo suggeriscono una progressione temporale e concettuale degli obbiettivi di apprendimento delineati nelle UDE stesse. L’adozione delle UDE ha il significato di porre l’accento sul “cosa lo studente deve apprendere”, e non su che cosa “il docente deve insegnare”. In questo senso, nelle intenzioni della Conferenza il Core Curriculum rappresenta nei fatti ciò che è indispensabile, ma allo stesso tempo ampiamente sufficiente, che lo studente in medicina apprenda per diventare un “medico standard” inteso come un neolaureato che possieda le basi della professione medica e sia quindi in grado di affrontare e risolvere i problemi di salute posti dai singoli pazienti e dalla comunità nella prevenzione, nella diagnosi, nella terapia e nelle riabilitazione delle malattie di più comune riscontro. È evidente che se si accetta questo concetto i test con risposte a scelta multipla da utilizzare nei diversi contesti (autovalutazione/verifiche in itinere, verifiche certificative, esami di stato per l’abilitazione, ammissione alla formazione specialistica) non possono che essere costituiti da domande che verifichino proprio il conseguimento degli obiettivi di apprendimento definiti dal Core Curriculum. Dal punto di vista pratico, e facendo riferimento al grado di competenza definito nel Core Curriculum per ogni UDE, si ritiene sia possibile prevedere che per il grado di competenza mnemonica siano utilizzabili le domande elaborate per la valutazione delle competenze conoscitive, per i gradi di competenza interpretativa e argomentativa siano utilizzabili le domande elaborate per la valutazione delle competenze interpretative e per i gradi di competenza clinica e gestionale siano utilizzabili le domande elaborate per la valutazione delle competenze cliniche (Tabella. II) .

Tabella II - 77

Non si ritiene che per indagare il raggiungimento degli obiettivi di apprendimento definiti dalle UDE di grado di competenza tecnica e comunicativo/relazionale, lo strumento del test con risposte a scelta multipla sia lo strumento più adeguato, essendo tali obiettivi certamente meglio verificati tramite rispettivamente l’OSCE (objective structured clinical examination) e l’OSVE (objective structured video examination) .

[1]Compito degli esperti sarà quello di analizzare ogni aspetto dello strumento: il modo e l’ordine in cui sono formulate le richieste; le informazioni superflue o mancanti; le modalità di risposta inappropriate, inadeguate, ridondanti o che costituiscono fonte di confusione; l’impaginazione. La sperimentazione su un piccolo campione del gruppo di rispondenti consentirà di verificare: tempi di somministrazione, chiarezza delle istruzioni, facilità o difficoltà delle domande, discriminatività, fedeltà, ecc.. Sarà possibile sondare, inoltre, attraverso interviste libere, l’effettiva comprensione dello strumento, ossia degli stimoli e delle eventuali risposte che lo costituiscono (Salerni, 1998);

[2]Il coefficiente alpha è un indice del grado in cui un test misura un singolo fattore. I test che misurano più di un tratto avranno probabilmente coefficiente alpha bassi, mentre i test omogenei tenderanno ad avere coefficienti alpha elevati .

Per tale ragione il coefficiente alpha è considerato un indice della coerenza interna di un test. La formula per calcolare il coefficiente alfa è la seguente:

formula 2 -77

Dove Vtot è la varianza totale della prova e Vi è la varianza di ogni singolo item Si deve tenere presente tuttavia che in campioni ampi l’alfa tende a crescere in relazione ad un effetto legato a caratteristiche complessive del gruppo non necessariamente riferibili alle conoscenze e alle abilità in esame .

[3]Se la prova interessa più aree di contenuto, l’analisi della coerenza dovrebbe essere sviluppata per ciascuna dimensione e l’analisi fattoriale dovrebbe evidenziare le diverse componenti del test .

[4]In questo caso si parte dall’assunto che i voti attribuiti dall’insegnante sono da ritenersi accettabili come criterio per stabilire la validità di una nuova misura. Essi sono, cioè, validi .

[5]A partire dalla pubblicazione di Cook e Campbell (1979), si considerano oltre alla validità interna e esterna, anche quella concettuale e quella delle conclusioni statistiche .

[6]Per un approfondimento delle questioni trattate in questo paragrafo si vedano, tra i molteplici testi in lingua italiana, in particolare Benvenuto – Lastrucci – Salerni (1995), Calonghi (1978), Calvani-Vincenzi (1987), Coggi – Calonghi (1992), Domenici (1991; 1993); Flores D’arcais (1972); Gattullo (1968); Gattullo – Giovannini (1989); Hudson (1973); Laeng (1989); Lucisano (1989); Vertecchi (1976, 1984b, 1993), oltre alla bibliografia indicata nel corso del testo.

[7]Per costruire una prova affidabile, ossia coerente e stabile, è necessario prevedere un numero di domande sovrabbondante (per area e per abilità) rispetto a quella che costituiranno la versione definitiva. Va infatti tenuto presente che non tutte le domande risulteranno adeguate e che alcune verranno scartate e altre dovranno essere affinate dopo la prova preliminare perché non risulteranno adeguati .

[8]L’Item Response Theory (IRT) è un modello che mette in relazione la difficoltà delle domande con le abilità dei soggetti a cui la prova viene somministrata (LORD, 1980). Tale modello ipotizza l’unidimensionalità del tratto che viene misurato con una prova. I vantaggi di questa assunzione sono i seguenti: è possibile descrivere la difficoltà di un item indipendentemente dai soggetti che possono rispondere a quell’item; è possibile individuare le abilità di una persona indipendentemente dal tipo di item somministrato; è possibile predire le proprietà di una prova rispetto alla sua somministrazione .

[9]L Tra i vari modelli di item-analisi ricordiamo quello che si rifà al modello probabilistico del danese Rasch e che viene oramai applicato prevalentemente nell’analisi dei dati raccolti nelle indagini internazionali su vasti campioni (si pensi ad esempio alle ricerche IEA o alle indagini OCSE). Rasch nel suo modello tiene conto della difficoltà della domanda e dell’abilità dei soggetti e considera la probabilità di rispondere a un item come funzione di questi due fattori. La difficoltà di una domanda è funzione del rapporto tra risposte corrette e risposte errate date a una domanda da tutti i soggetti. L’abilità di un soggetto è invece definita come funzione del rapporto tra il numero di risposte corrette e quello di risposte errate che il soggetto ha totalizzato in un’intera prova. Se l’abilità di un soggetto è superiore alla difficoltà della domanda la probabilità di dare una risposta corretta a quella domanda è superiore al 50%; al contrario se l’abilità di un soggetto è inferiore alla difficoltà della domanda la probabilità è inferiore al 50%. L’item analisi di Rasch, considerando le misure della abilità dei soggetti e della difficoltà delle domande, opera una serie di trasformazioni che, rispetto alle procedure tradizionali di item analisi consentono di: • rendere lineare la scala di misura, ottenendo una scala a intervalli, in cui gli intervalli su punti diversi della scala corrispondono a incrementi uguali nella proprietà misurata (sia essa la difficoltà della domanda o l’abilità dei soggetti); • rendere indipendente sia la misura dell’abilità di chi risponde alla prova dall’insieme delle domande presentate, sia la misura della difficoltà delle domande dall’abilità dei soggetti a cui vengono sottoposte; • esprimere la difficoltà della domanda e l’abilità dei soggetti su una stessa scala. È così possibile calcolare lo scostamento dei risultati empirici dal modello atteso attraverso una procedura di calcolo che fornisce un indicatore di corrispondenza (fit) al modello che consente di determinare il grado di incoerenza (misfit) di ciascun quesito rispetto al modello probabilistico

[10]Consideriamo il caso in cui ciascuna domanda contribuisce con lo stesso peso alla rilevazione dell’abilità che la prova intende misurare. In questo caso procediamo attribuendo il punteggio grezzo 1 alle risposte corrette e 0 alle risposte errate, omesse o non raggiunte .

[11]Si ottiene dividendo il numero delle risposte corrette il numero dei casi:

formula 2 -77

[12]L’indice di discriminatività di un item si può ricavare dal rapporto tra la differenza della somma delle risposte esatte dell’estremo superiore e quelle dell’estremo inferiore della unità di analisi con il numero di soggetti che compongono l’estremo:

formula 3 -77

dove:
d = indice di discriminatività
esup = risposte esatte dell’estremo superiore
einf = risposte esatte dell’estremo inferiore
n = numero dei soggetti di un estremo

L’indice varia da +1 a -1. Il valore 0 indica che l’item in esame non è discriminativo, ossia che i soggetti nell’estremo superiore e i soggetti nell’estremo inferiore rispondono all’item allo stesso modo. Quando invece il gruppo dei soggetti che hanno ottenuto un punteggio alto al test risponde meglio, la discriminatività ha segno positivo. Quando l’indice di discriminatività è superiore a 0,30 si può ritenere che la domanda ha una buona capacità di discriminare i due gruppi di soggetti, e quindi di misurare la variabile in esame .

La discriminatività di un item è anche calcolabile attraverso la correlazione punto-biseriale. Il punto biseriale è un coefficiente di correlazione che si ottiene mettendo in correlazione i risultati ottenuti da tutti i soggetti che hanno risposto correttamente a un singolo item con i punteggi di tutti i soggetti nell’intera prova, meno quella domanda. La formula generalmente utilizzata per calcolare il punto biseriale è la seguente:

formula 4 -77

Dove:
e= Media dei punteggi dei soggetti che hanno risposto bene all’item
t = Media dei punteggi al test dell’intero campione
s = Deviazione standard dei punteggi dell’intero campione
p = risposte esatte all’item/n. dei soggetti .

Il punto biseriale varia da –1 a +1. Un punto biseriale vicino allo 0 indica che la domanda non discrimina chi è andato bene alla prova da chi è andato male. Una discriminatività positiva, superiore a 0,3 indica che la domanda discrimina i soggetti più capaci da quelli meno capaci e tanto più questo valore si avvicina a 1,0 migliore è la capacità della domanda di “misurare”. Una discriminatività negativa indica che, fra chi risponde esattamente alla domanda, sono più numerosi quelli che sono andati complessivamente peggio alla prova (Per avere un esempio di item analisi in cui è stato applicato il punto biseriale si veda Lucisano – Siniscalco, 1992)

Bibliografia

AERA, APA, NCME: Standards for Educational and Psychological Test. Washington D.C.: AERA, 2014 Benvenuto G.- Lastrucci E. – Salerni A.: Leggere per capire. Anicia, Roma, 1995 .

Boncori L.: Teorie e tecniche dei test. Boringhieri, Torino, 1993 .

Calonghi L.: Statistiche d’informazione e di valutazione. 2 voll., Bulzoni, Roma, 1978 .

Calvani A. – Vincenzi A. B.: La scelta degli item adatti in un test. In “la ricerca”, n.15 marzo, pp. 6-14, 1987 .

Coggi C. – Calonghi L.: Elementi di statistica per la ricerca scolastica. Giunti & Lisciani, Teramo, 1992 .

Cook T. D., Campbell D. T. – PERACCHIO L. (1990), Quasi-experimentation.In Dunnette M. D. – HOUGH L. M. (eds.), Handbook of Industrial Organizational Psychology. Consulting Psychologist, Palo Alto, pp.491-576 .

Case SM, Swanson DB: Constructing written test questions for the basic and clinical sciences. National Board of Medical Examiners, Philadelphia, PA, 2002 .

Consorti F. Test scritti di valutazione.In: Padula M.S., Agazzotti G. Imparare a insegnare la medicina generale La «cassetta degli attrezzi» per la formazione dei formatori, pp. 251-260. Athena Audiovisuals, Modena, 2015 .

De Luca A. M., Lucisano P.: Item analysis between model and reality. ITALIAN JOURNAL OF EDUCATIONAL RESEARCH, n. 7, Lecce: Pensa Muiltimedia,2011 Domenici G.: Gli strumenti della valutazione, Tecnodid, Napoli, 1991 .

Domenici G.:, Manuale della valutazione scolastica, Laterza, Bari, 1993 .

Downing SM: Assessment of knowledge in written test forms. In: Norman G, van der Vleuten CPM, Newble D (eds): International Handbook of Research in Medical Education, vol. 2, pp. 647-672. Kluwer, Dordrecht, 2002 .

Eva KW: Assessment strategies in medical education. In: Salerno-Kennedy R, O’Flynn S (eds): Medical Education .The State of the Art, pp. 93-106. Nova, New York, 2010 .

Familiari G, Barbaranelli C, Di Liegro I, et al, L’accesso a Medicina. Best evidence-based practice, requisito indispensabile per una ipotesi di “Processo di Selezione” centrato sulla realtà formativa italiana e di caratura internazionale .Med. Chir. 63: 2853-2858, 2014 .

Flores D’Arcais G. B., Introduzione alle teoria dei test .Giunti Universitaria, Firenze, 1972 .

Gattullo M., Giovannini M. L.: Misurare e valutare l’apprendimento nella scuola media. Bruno Mondadori, Milano, 1989 .

Gattullo M.: Didattica e docimologia. Misurazione e valutazione nella scuola. Armando, Roma,1968 .

Haladyna TM: Developing and Validating Multiple Choice Items. Lawrence Erlbaum, Mahwah, NJ, 2004 .

Hayes K: Written assessment. In: Walsh K (ed): Oxford Textbook of Medical Education, pp. 549-563. Oxford University Press, Oxfod, 2013 .

http://presidenti-medicina.it/core-curriculum/

Hudson B. (a cura di): Assessment Techniques. An Introduction.Methuen Educational Ltd, London, 1973 (Trad .it., Introduzione alle tecniche di valutazione, Zanichelli, Bologna 1975).

Jolly B: Written examinations. In: Swanwick T (ed): Understanding Medical Education. Evidence, Theory and Practice, pp. 208-231. Wiley-Blackwell, Oxfod, 2010 .

Laeng M. Elementi e momenti della valutazione. Lisciani & Giunti, Teramo, 1989 .

Lord F. M.: Applications of Item Response Theory to Pratical Testing Problems. Erlbaum, Hillsdale, New Jersey, 1980 .

Lovell K., Lawson K. S.: Understanding Research in Education .University of London Press, London, 1970. trad .La ricerca nel campo educativo, Giunti-Barbera, Firenze, 1972.

Lucisano P.: Lettura e comprensione. Loescher, Torino, 1989 .

Lucisano, P., Siniscalco, M. T.: Finalizzazione e taratura di una prova di alfabetizzazione-lettura: item analisi tradizionale e item analisi di Rasch. In “Scuola e Città”, n.1, pp. 31-40. 1992 Lucisano P.: The Measure of measurement and educational validity. In ITALIAN JOURNAL OF EDUCATIONAL RESEARCH, n. 16, Lecce: Pensa Muiltimedia, 2016 .

Lucisano P.: Il fine come criterio di validità di interventi educativi. In Notti A. (ed), La funzione educativa della valutazione. Teorie e pratiche della valutazione educativa. Lecce, Pensa Multimedia, 2017 .

McAleer S: Choosing assessment instruments. In: Dent JA, Harden RM (eds): A Practical Guide for Medical Teachers, pp. 318-324. Churchill Livingstone, Edinburgh, 2009 .

McAleer S, Chandratilake M: Choosing instruments for assessment. In: Walsh K (ed): Oxford Textbook of Medical Education, pp. 432-442. Oxford University Press, Oxford, 2013 .

McKinley DW, Norcini JJ: Setting standards. In: Walsh K (ed): Oxford Textbook of Medical Education, pp. 421- 431.Oxford University Press, Oxfod, 2013 .

Miceli R., INVALSI, test di apprendimento nella scuola e modello di Rasch. https://www.roars.it/online/ redazione roars@gmail.com, 2014

Newble D, Cannon R: A Handbook for Medical Teachers, pp. 125-163. Kluwer, Dordrecht, 2010 .

Patterson F, Knight A, Dowell J, Nicholson S, Cousans F, Cleland J. How effective are selection methods in medical education? A systematic review. Med Educ. 50(1): 36-60, 2016 .

Nunnally J. C.: Educational Measurement and Evaluation, Mc Graw-Hill, New York 1964. Trad. it. Misurazione e valutazione nella scuola. OS, Firenze, 1976 .

Prideaux D, Roberts C, Eva K, Centeno A, McCrorie P, McManus C, Patterson F, Powis D, Tekian A, Wilkinson D. Assessment for selection for the health care professions and specialty training: consensus statement and recommendations from the Ottawa 2010 Conference . Med Teach. 33(3): 215-223, 2011 .

Rogora E.: I test INVALSI sono scientificamente solidi? I limiti del modello di Rasch, https://www.roars.it/online/ redazione.roars@gmail.com, 2014 Rogora E. Ancora su INVALSI, test di apprendimento e modello di Rasch, https://www.roars.it/online/ redazione roars@gmail.com, 2014

Salerni A.: Costruire prove di lessico in contesto. In “Cadmo”, anno VI, n.16, pp.93-101, 1998 .

Schuwirth LWT, Ash J: Principles of assessment. In: Walsh K (ed): Oxford Textbook of Medical Education, pp. 409-420. Oxford University Press, Oxfod, 2013 .

Schuwirth LWT, van der Vleuten CPM: How to design a useful test: the principles of assessment. In: Swanwick T (ed): Understanding Medical Education. Evidence, Theory and Practice, pp. 195-207. Wiley-Blackwell, Oxfod, 2010 .

Schuwirth LWT, van der Vleuten CPM: Written assessment In: Dent JA, Harden RM (eds): A Practical Guide for Medical Teachers, pp. 325-332. Churchill Livingstone, Edinburgh, 2009 .

Wass V, Archer J: Assessi ng learners. In: Dornan T, Mann K, Scherpbier A, Spencer J (eds): Medical Education .Theory and Practice, pp. 229-255. Churchill Livingstone, Edinburgh, 2011 .

Wood R: Assessment and Testing. Cambridge University Press, Cambridge, 1991 .

Vertecchi B.: Valutazione formativa. Loescher, Torino, 1976 .

Vertecchi B.: Manuale della valutazione. Analisi degli apprendimenti. Editori Riuniti, Roma, 1984.

Vertecchi B.: Decisione didattica e valutazione. La Nuova Italia, Firenze, 1993 .

Visalberghi A.: Problemi della ricerca pedagogica. La Nuova Italia, Firenze, 1965 .

Cita questo articolo

Montcharmont B., et al., I test con risposte a scelta multipla nel percorso formativo del medico, Medicina e Chirurgia, 77: 3451-3465, 2018. DOI: 10.4487/medchir2017-77-2

Medicina e Chirurgia – Journal of Italian Medical Education

Quaderni delle Conferenze Permanenti delle Facoltà di Medicina e Chirurgia

I test con risposte a scelta multipla nel percorso formativo del medicon.77, 2018, pp.3451-3465, DOI: 10.4487/medchir2018-77-2