|
|
 |
L'Item Response Theory: il modello di Rasch
di Matteo Ciancaleoni
|
 |
I test psicologici rappresentano uno degli strumenti più importanti e storicamente presenti nella professione dello psicologo. La loro efficacia, che li differenzia da pseudo-test presenti nelle riviste, dipende molto dalla professionalità di chi li costruisce. La costruzione di tali strumenti si avvale di modelli psicometrici: modelli statistici che specificano le relazioni tra quanto viene rilevato tramite le risposte date agli item e le dimensioni che il test si propone di misurare. In particolare, sono due i modelli psicometrici principali nella costruzione di test psicologici: la Teoria Classica dei Test (TCT) e l’Item Response Theory (IRT). La TCT rappresenta il modello maggiormente seguito per la costruzione dei test psicologici, in Italia e altrove (Barbaranelli & Natali, 2005). L’IRT, invece, risulta non essere ancora molto applicata, soprattutto nel nostro paese, anche se negli ultimi anni stanno aumentando le ricerche condotte in merito (Cristante & Mannarini, 2003).
Proprietà dell’Item Response Theory
I modelli dell’IRT hanno l’obiettivo di calcolare la probabilità che un soggetto ha di rispondere correttamente a ciascun item del test somministrato, in funzione del livello di abilità posseduto dal soggetto stesso e dei parametri dell’item analizzato; i parametri variano anche in funzione del modello preso in considerazione; di conseguenza, il punteggio che un soggetto ottiene ad un determinato item dipende sia dal livello d’abilità posseduto dal soggetto, sia dalle caratteristiche dell’item stesso, oltre che dal modello utilizzato che determina quali parametri degli item includere nelle analisi stesse.
All’interno dell’IRT esistono, quindi, più modelli in funzione del numero di parametri considerati nel modello.
Nel modello di Rasch, o modello ad un parametro, viene preso in considerazione solo il livello di difficoltà dell’item: livello d’abilità richiesto affinché un soggetto abbia le stesse probabilità di superare o fallire l’item.
Negli altri modelli, a due o tre parametri, si hanno anche:
- Livello di discriminazione dell’item: capacità dell’item di discriminare tra soggetti che hanno differenti livelli di tratto;
- Guessing: influenza del caso nel determinare il superamento dell’item.
Nel modello ad un parametro si assume che il parametro di discriminazione sia costante per tutti gli item, ovvero che tutti gli item abbiano lo stesso potere discriminante, mentre il parametro di Guessing non viene considerato.
In questo modello la probabilità di rispondere correttamente all’item dipende dal livello di tratto del soggetto e dal parametro di difficoltà dell’item: quando quest’ultimo è maggiore del livello di abilità posseduto dal soggetto, la probabilità di rispondere correttamente è minore del 50%. Sulla base di questo, il modello di Rasch è un modello di tipo qualitativo: un soggetto che risponde correttamente ad un item difficile avrà risposto correttamente anche ad item più facili.
Nel modello di Rasch il solo parametro che influenza la Curva Caratteristica dell’Item (ICC) è il livello di difficoltà dello stesso. La ICC è la funzione di risposta dell’item: funzione non lineare monotona crescente che descrive come la probabilità di risposta corretta all’item vari in funzione del livello di abilità.
Quindi, la curva caratteristica di un item è una rappresentazione grafica che descrive, in generale, la probabilità di risposta corretta a un item rispetto a un indice di livello su di un tratto (Kline, 1996).
Dalle varie ICC è possibile ottenere la TCC (Curva Caratteristica del Test) sommando tutte le singole ICC. Il modello non richiede che le curve caratteristiche degli item di un test siano tutte uguali; anzi, se lo fossero non si avrebbe un buon test in quanto tutti gli item avrebbero caratteristiche psicometriche simili. Per poter utilizzare i vari modelli afferenti all’IRT, debbono però essere rispettate delle assunzioni (Barbaranelli & Natali 2005):
- Monodimensionalità: il test deve misurare un solo tratto, ovvero possono esserci dei fattori specifici che concorrono a determinare la risposta all’item, ma deve comunque esserci una sola dimensione dominante.
- Indipendenza locale: se si mantiene costante il livello di tratto gli item devono essere tra loro indipendenti, quindi la dipendenza tra gli item è determinata solo dal tratto che si misura.
- Monotonicità: la probabilità di rispondere correttamente all’item aumenta monotonicamente all’aumentare del livello di abilità; se così non fosse, soggetti con minor livello di tratto avrebbero maggiori chance di rispondere correttamente all’item.
- Assenza del fattore velocità: tutti gli errori commessi devono esser ricondotti alla mancanza di conoscenza dell’argomento e non alla mancanza di tempo; se così non fosse, potrebbe esser violata l’assunzione di monodimensionalità.
Le misure ottenute con modelli IRT godono di alcune importanti proprietà, che lo differenziano dalla Teoria Classica dei Test (TCT):
- La calibrazione degli item è person-free (Schimdt & Embretson, 2003): la distribuzione delle persone usate per ottenere i parametri degli item non incide su questi. Nell’IRT ogni item presenta determinate proprietà, sintetizzabili attraverso l’ICC, che restano immutate ad ogni somministrazione del test, indipendentemente dai soggetti che rispondono al test stesso. Inoltre, purché gli item provengano da uno stesso pool di item, i relativi parametri conosciuti attraverso la somministrazione ad un campione pilota restano immutati (Barbaranelli & Natali 2005).
- La misura delle persone è item-free (Schimdt & Embretson, 2003): la stima dei livelli di tratto nelle persone non è influenzata dalle caratteristiche degli item. I soggetti possono, quindi, esser confrontati anche se non sono stati somministrati gli stessi item o item paralleli.
- Un’altra proprietà particolarmente rilevante nell’uso dell’IRT è costituita dal fatto che permette di definire il livello di abilità che il test deve misurare con maggior precisione. Nell’IRT la precisione della misura è indicata da un errore standard condizionale di misurazione che può differire per ogni valore del tratto latente. Quindi è possibile calibrare uno strumento in modo tale che misuri con maggior precisione un determinato livello di abilità di maggior interesse; questo è possibile proprio perché l’errore standard di misura non riguarda l’intera gamma di possibili valori del tratto che si va a misurare, ma varia in funzione del livello di tratto. In particolare, ogni item avrà determinate caratteristiche tali che misuri con maggior precisione un determinato livello di tratto. Sulla base di questo, è inoltre possibile ridurre il numero di item da somministrare per avere una stima del livello di abilità sufficientemente adeguata: basteranno pochi item in grado di misurare con grande precisione il livello interessato, piuttosto che una lunga serie di item che comporta alcuni bias, come l’apprendimento del compito e l’affaticamento.
Per misurare la precisione della stima di un parametro solitamente si usa l’errore standard di misura del parametro stesso; nei modelli IRT la varianza della stima del livello di tratto è il reciproco della funzione informativa.
La funzione informativa dell’item, Item Information Function (IIF), esprime la precisione con cui l’item misura l’abilità in un preciso livello di tratto.
La IIF fornisce un’idea sulla posizione rispetto alla scala di abilità dove l’item è maggiormente informativo: un item, quindi, è molto informativo solo per uno specifico livello di tratto nel quale la stima sarà più precisa e meno inficiata da errore; di conseguenza, lo stesso item avrà un errore standard maggiore nei livelli di tratto in cui il suo potere informativo è più debole. Nel modello di Rasch il punto del tratto in cui l’informazione dell’item è massima corrisponde al livello di difficoltà dell’item stesso.
Sulla base delle IIF di ogni item, è possibile calcolare la funzione informativa del test nella sua globalità, ovvero la Test Information Function (TIF). La TIF si ottiene sommando tutte le IIF contenute nel test stesso: di conseguenza la TIF è strettamente connessa al numero degli item componenti il test, per cui quanto più questo numero aumenta tanto più aumenta l’informazione del test e, quindi, la precisione con cui l’abilità è stimata.
L’errore standard del test risulta essere connesso alla TIF; tale errore, quindi, non è costante per tutti i livelli di tratto latente: gli item, e di conseguenza il test, saranno maggiormente informativi, e quindi più precisi, per alcuni livelli di tratto.
Vantaggi serivanti dall’applicazione dell’Item Response Theory
Fino al 1980 la TCT era dominante sulla scena della ricerca scientifica; successivamente sono state proposte nuove metodologie di analisi, sia parametriche sia non parametriche; tra queste, lo sviluppo dell’IRT, sviluppata molti anni prima, ma entrata a far parte dello scenario scientifico solo successivamente a causa della sua complessità teorica e applicativa (Singh, 2004).
Tra le due teorie ci sono molte differenze, prima fra tutte il modello matematico che specifica le relazioni tra variabili osservate e variabili latenti: la TCT ipotizza una relazione di tipo lineare, mentre l’IRT ipotizza una relazione di tipo non lineare, indipendentemente dal tipo di modello utilizzato (Barbaranelli & Natali 2005).
Ogni modello matematico è caratterizzato da specifici parametri: nella TCT si ha la saturazione fattoriale come unico parametro capace di cogliere la relazione tra la variabile osservata e quella latente, mentre nell’IRT questa relazione può essere spiegata da uno, due o tre parametri, a seconda del modello che viene scelto (Singh, 2004).
Una differenza fondamentale tra i due diversi modelli è di stampo teorico: la TCT si sofferma soprattutto sul livello di informazione fornito dalla totalità del test, mentre l’IRT ha come focus principale il livello di informazione del singolo item (Fan, 1998).
Tra le due teorie cambia l’interpretazione dell’errore standard di misura; infatti, nella TCT tale valore è constante in tutte per tutti i soggetti appartenenti al campione, mentre nell’IRT tale valore varia in funzione del livello di abilità posseduto dal soggetto.
Sulla base di questa proprietà, si può costruire uno strumento in grado di misurare in modo preciso e attendibile un target del livello di abilità di interesse in funzione degli obiettivi che guidano la ricerca. Infatti, gli approcci dell’IRT permettono di selezionare gli item in funzione del livello di abilità target dello studio in esame, così da poter costruire dei subtest capaci di discriminare, con elevata precisione e sulla base di un numero ridotto di item, attorno al livello di abilità ritenuto decisivo.
Logica conseguenza è il mutare del concetto di attendibilità, in quanto si ha un rapporto inversamente proporzionale con la precisione della misura stessa.
Nella TCT al crescere del numero di item dello strumento cresce l’attendibilità dello stesso. Nell’IRT non si parla di attendibilità, ma di informazione del test e dell’item: IIF e TIF vengono interpretati come indici che esprimono la precisione di una misurazione. In questo caso, la precisione della misurazione non aumenta necessariamente con il crescere del numero di item indipendentemente dal livello di abilità considerato: infatti, si può somministrare ad ogni soggetto un test diverso personalizzato rispetto al livello di abilità posseduto dal soggetto. Tutto ciò comporta, a differenza di quanto avviene all’interno della TCT, che anche strumenti formati da un numero relativamente esiguo di item possono avere un elevato livello informativo; tale livello informativo può crescere ulteriormente se lo strumento si adatta alle caratteristiche dei soggetti e al livello target di abilità da stimare con maggior precisione. Infatti, all’interno della TCT per costruire delle versioni ridotte di uno strumento, gli item vengono selezionati basandosi soltanto sulla saturazione fattoriale maggiore, senza prendere in considerazione i cambiamenti che questo comporta a livello di validità di costrutto (Singh, 2004).
Nel modello di Rasch, si è visto, che il solo parametro considerato è il livello di difficoltà dell’item: tale parametro non ha lo stesso significato che possiede nella TCT. Infatti, corrisponde al punteggio nella scala di abilità in cui la probabilità di rispondere correttamente è uguale alla probabilità di rispondere in modo errato. Nella TCT, invece, la difficoltà di un item è definita come la proporzione di soggetti, che in un campione specifico, risponde correttamente all’item in questione (Barbaranelli & Natali, 2003).
Inoltre, uno studio condotto da Fan (1998) utilizzando un ampio database di dati ottenuti da programmi di valutazione universitaria, mette in relazione il coefficiente di difficoltà degli item, secondo la TCT, e il medesimo parametro considerato in un modello di Rasch. I risultati indicano come tali coefficienti, all’interno nel medesimo test costruito secondo la TCT, risultano essere molto simili tra loro, mentre i valori del parametro di difficoltà dell’item subiscono variazioni molto maggiori. Questo permette di avere una quantità di informazioni maggiori, ottenibili con lo stesso numero di item, attraverso l’utilizzo del modello di Rasch.
Nello stesso studio, si nota come i livelli di discriminazione degli item, ottenuti attraverso TCT, sono molto simili tra loro, giustificando l’assunzione di uguaglianza che sottostà al modello di Rasch.
Nella TCT si ha dipendenza tra le statistiche degli item e delle persone; un esempio potrebbe essere costituito da un test che misuri alcune abilità: se questo test fosse particolarmente semplice le statistiche delle persone risulterebbero molto alte dando l’impressione che posseggano alti livelli di tratto. Invece, se il test fosse composto da item molto difficili si otterrebbe l’impressione opposta: in definitiva, la stima di abilità dipende dalla difficoltà del set di item. Parallelamente a questo, anche la stima della difficoltà degli item dipende dal livello di abilità del campione a cui è stato somministrato (MacDonald & Paunonem, 2002). La proprietà dell’invarianza dell’IRT permette di ovviare a questo limite, come dimostra lo studio di Tinsley e Dawis (1977) dove la stima dell’abilità del soggetto, attraverso il modello di Rasch, risulta essere indipendente dalla difficoltà degli item.
Tutte queste differenze comportano risultati diversi, utilizzando lo stesso data base, a seconda che le analisi vengano effettuate attraverso la TCT o un modello afferente all’IRT.
Lo studio condotto da Singh (2004), che analizza gli stessi dati, provenienti da due specifici questionari sul conflitto di ruolo (Role Conflict) e sull’ambiguità del ruolo (Role Ambiguity), seguendo la TCT o un modello a due parametri dell’IRT, dimostra come le stime del livello di abilità siano diverse. Infatti, il valore atteso della variabile latente è in alcuni item inferiore, in altri superiore al livello di abilità stimato, dal modello a due parametri dell’IRT, a partire dagli stessi dati. L’autore, commentando tali dati, indica il modello IRT come più realistico nel descrivere le relazioni tra variabili osservate e variabili latenti (Singh, 2004). Inoltre, un modello non lineare può descrivere un modello lineare ma non viceversa: di conseguenza i modelli IRT possono approssimare il modello TCT, ma non è possibile il contrario. Sulla base di ciò, negli item in cui si hanno risultati diversi, è possibile ipotizzare, sempre secondo Singh (2004), che i modelli TCT non possono catturare i processi non lineari che stanno alla base di tali item.
Critiche all’Item Response Theory
Con l’avvento dell’IRT, l’eventualità di utilizzare tali modelli ha suscitato un vivo dibattito, creandosi due contrapposti schieramenti per quanto attiene all’utilizzo di questi modelli. Tra i critici dell’IRT, Nunnally (1978) ne sconsiglia l’uso in quanto i risultati che si ottengono sono praticamente sovrapponibili a quelli ottenibili con la TCT. Questa argomentazione viene fortemente criticata da Kline (1996) secondo il quale le correlazioni che caratterizzano la TCT sono fortemente influenzate dalle proporzioni con cui il campione risponde ad ogni item; inoltre, anche secondo Guilford (1956) le due stime non sono comparabili.
Tra i fautori del modello, Elliot (1983) difende strenuamente l’utilità, soprattutto del modello di Rasch, anche per la sua economicità in rapporto alla precisione delle misure ottenute.
Inoltre, vi sono alcuni autori, tra i quali lo stesso Kline (1996), che consigliano di utilizzare il modello di Rasch, dove si assume come invariante il parametro di discriminazione, ad aree ristrette delle abilità e della riuscita; non potendo avere item con stessa capacità discriminativa nei test di personalità, consiglia in questo caso l’impiego di modelli a due parametri.
La difficoltà nell’utilizzare i vari modelli dell’IRT rende a volte superfluo il suo effettivo impiego; secondo Fan (1998) i vantaggi derivanti dall’applicazione dell’IRT sono effettivi e verificati, ma comportano un dispendio di tempo e una dimestichezza con la statistica che ne sconsiglia un ampio uso; infatti, sempre secondo l’autore, l’impiego dell’IRT, compreso il modello di Rasch che è il più semplice da utilizzare tra i vari modelli IRT, viene consigliato solo a persone esperte e con buona preparazione statistica.
Doran (2005) riprendendo tale concetto esamina un problema che si incontra nell’utilizzo dell’IRT quando non si hanno sufficienti conoscenze in merito. L’apparente somiglianza del concetto di attendibilità nei modelli IRT rispetto alla TCT può generare della confusione, in quanto non si parla più di punteggio vero ma solo di precisione della misurazione e questo comporta abbandonare l’ottica comune della TCT, passo che può generare delle difficoltà e delle resistenze. Inoltre, il concetto di attendibilità nell’IRT non sottende la riproducibilità della misura, come invece avviene nella TCT. Il problema dell’interpretazione del concetto di attendibilità nell’IRT viene ripreso anche da Barbaranelli e Natali (2005); secondo tali autori non si può nemmeno parlare di attendibilità, riferendosi ai vari modelli IRT, ma si deve parlare di informazione del test e dell’item (TIF e IIF); la Funzione Informativa del Test non cresce necessariamente all’aumentare del numero degli item, così come avviene nella TCT.
Un problema dell’IRT, ed in particolare del modello di Rasch, è l’attenzione posta esclusivamente sul parametro di difficoltà dell’item, tralasciando altre informazioni quali il parametro di discriminazione e il guessing. Secondo alcuni autori, in diverse ricerche, (Singh, 2004; Lawson 2006) i risultati ottenibili attraverso il modello di Rasch sono del tutto equivalenti a quelli che possono essere ottenuti attraverso la TCT: infatti, anche nella TCT è possibile considerare la difficoltà di un item come parametro che determini la scelta dello stesso. I risultati, anche laddove non siano equivalenti, presenterebbero, sempre secondo tali studiosi, delle differenze talmente minime da non giustificare l’impiego del modello di Rasch, data la sua maggior difficoltà nell’applicazione.
Un’altra criticità del modello di Rasch è l’assegnare ai soggetti stime del livello di abilità, e stime del parametro di difficoltà degli item il cui significato non denota reali ed evidenti relazioni empiriche tra questi: persone e item non sono entità simmetriche nell’IRT (Fischer, 1995). Sempre secondo lo stesso autore, un ulteriore problema relativo a tutti i modelli afferenti all’IRT è costituito dal fatto di stimare in modo congiunto sia i parametri degli item sia i livelli di abilità dei soggetti; gli item ed i soggetti sono trattati come variabili discrete cosicché non possano esser stabilite le proprietà metriche delle misure ottenute.
Uno studio effettuato da Lawson (2006) dimostra come il modello di Rasch, nonostante l’autore non sia un fautore di tale modello, possa esser applicato anche nella valutazione di un test somministrato ad un campione di ampiezza ridotta; infatti, afferma che i risultati ottenuti somministrando un test composto da cento item dicotomici a cento studenti siano più precisi rispetto a quanto ottenibile attraverso la TCT.
Per concludere, MacDonald e Paunonen (2002) hanno replicato lo studio di Fan (1998) per confrontare le stime di abilità nei soggetti che si ottengono attraverso la TCT e l’IRT. Secondo questo lavoro, i risultati possono, ma non necessariamente, portare a prendere le medesime decisioni in merito alla selezione degli item e forniscono un livello di precisione simile dei punteggi che si ottengono al test, dove nello specifico lo strumento utilizzato viene analizzato sia tramite il modello di Rasch sia tramite i modelli a due e tre parametri in un campione di mille soggetti. Nel dettaglio, il parametro di difficoltà dell’item e le statistiche riferite ai soggetti sono effettivamente equivalenti, mentre l’indice di discriminazione non è comparabile in tutte le situazioni. Il risultato più importante è che al variare delle condizioni sperimentali i risultati ottenuti con l’IRT sono sicuramente più precisi. Gli autori concludono sostenendo che i parametri dell’IRT non devono necessariamente essere considerati “magici”: in molte condizioni forniscono stime più precise del livello di abilità dei soggetti, e, di conseguenza, sono preferibili, nonostante abbiano fondamenti matematici più complessi che richiedono maggior impegno nell’analisi e nell’interpretazione dei dati stessi.
Riferimenti bibliografici
Barbarenelli, C., & Natali, E. (2005). I Test psicologici: teorie e modelli psicometrici. Roma: Carocci Editore
Cristante, F., & Mannarini, S. (2003). Psicometria. Il Mulino, Bologna.
Doran, H. C. (2005). The information function for the one-parameter logistic model: is it reliability? Educational and Psychological Measurement, 65 (5), 665-675.
Elliot, C.D. (1983). British Ability Scales Technical Handbook. Windsor: NFER-Nelson.
Fan, X. (1998). Item Response Theory and Classical Test Theory: an empirical comparison of their item/person statistic. Educational and Psychological Measurement, 58 (3), 357-381.
Fischer, G. H. (1995). Some neglected problems in IRT. Psychometrika, 60 (4), 459-487.
Guilford, J.P. (1956). Fundamental Statistics in Psychology and Education. New York: McGraw Hill.
Kline, P. (1996). Manuale di psicometria. Roma: Casa Editrice Astrolabio.
Lawson, D. M. (2006). Applying the Item Response Theory to classroom examinations. Journal of Manipulative and Psychological Therapeutics, 29 (5), 393-397.
MacDonald, P., & Paunonen, S. V. (2002). A Monte Carlo comparison of item and person statistics based on Item Response Theory versus Classical Test Theory. Educational and Psychological Measurment, 62 (6), 921-943.
Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill.
Schmidt, K. M., & Embretson, S. E. (2003). Item Response Theory and measuring abilities, in J. A. Schinka e W. F. Velicer (Eds). Handbook of psychology, 2, Research Method in Psychology. (pp.429-445), New Jersey: John Wiley and sons.
Singh, J. (2004). Tackling measurement problems with Item Response Theory: Principles, characteristics, and assessment, with an illustrative example. Journal of Business Research, 57, 284-208.
|
 |
titolo: L'Item Response Theory: il modello di Rasch
autore: Matteo Ciancaleoni
argomento: Psicometria
fonte: Vertici Network
data di pubblicazione: 28/01/2010
|