Klasická testová teorie
Klasická testová teorie (často uváděná pod zkratou CTT z anglického Classical test theory) je jedním z psychometrických přístupů k měření psychických jevů, tedy vlastností či schopností lidí. Jejím cílem je předpovědět výsledky psychologického testování, jako je například odhad schopnosti respondenta, přesnost měření nebo obtížnost položky, a zvýšit tak jejich přesnost (reliabilitu).
Pro realizaci kvalitního diagnostického závěru je nutné pomyslet na možnost výskytu chyby měření. Na základě výskytu chyby měření bylo vyvinuto velké množství postupů pro vyjádření nejistoty měření. Jedním z postupů je právě regresivní model klasické testové teorie někdy označované jako teorie pravého skóre (true score theory), jež byla poprvé popsaná v roce 1966[1] Novickem a následně v další publikaci Lorda a Novicka[2], ačkoliv postup samotný vznikal již na přelomu 18. a 19. století. Slovo klasická odkazuje jednak k chronologickému pořadí vývoje jednotlivých psychometrických přístupů, jednak také kontrastuje vůči modernějším přístupům jako je například teorie odpovědi na položku (IRT), někdy nazývaná moderní testová teorie, nebo teorie vědomostních prostorů.
Úspěch jednotlivých zkoušených osob závisí na celé řadě faktorů, mezi které patří např. jejich aktuální psychické rozpoložení, faktory prostředí nebo test samotný. Někdy se může stát, že každé testování vede k různým závěrům o té samé osobě. I přes její omezení je klasická testová teorie stále doporučovanou metodou při tvorbě a hodnocení testů díky jednoduchosti při zjišťování reliability a minimalizaci chyb měření.
Historie klasické testové teorie
Klasická testová teorie vznikla ve 20. století a je založena na třech významných okolnostech posledních 150 let:
- objevení výskytu chyb v měření
- uvědomění, že chyba je náhodná proměnná
- koncept korelace a její znázornění
Za zakladatele klasické testové teorie se považuje Charles Spearman, který v roce 1904 zjistil, jak zúžit korelační koeficient při měření chyb a jak získat ukazatele spolehlivosti potřebného k provedení korekce. Gulliksenova kniha Theory of Mental Tests (1950) je často brána jako klasický text pro klasickou testovou teorii. Traub (1997) zdůraznil několik hlavních konceptů CTT: (1) korekce zúžení - korelace mezi proměnnými, (2) Spearman-Brownovy předpovědi - odhadování schopnosti testovaného a jak by mohlo být ovlivňování chybou minimalizováno, a za (3) Guttmanovy nižší hranice reliability- vykazování pravdivého skóru či skorů schopnosti a odpovídajících pásem sebevědomí.
Mezi další odborníky hrající významnou roli v tvorbě klasické testové teorie patří Truman Lee Kalley, George Udny Yule, Louis Guttman a skupiny podílející se na tvorbě Kuder-Richardsonových vzorců. Nesmí být opomenut také Melvin Novick, který byl jedním z posledních významných osobností přispívajících k rozvoji klasické testové teorie. Moderní IRT byla rozvinnuta Lordem a Birnbaumem. Lordovy a Novickovy klasické učebnice jsou považovány za důležité milníky v psychometrických metodách. Lord a Novick odvodili mnoho CTT modelů z IRT.
Základy klasické testové teorie
Základní axiom klasické testové teorie spočívá v tom, že každá měřená osoba má pravý skór (true score), který by byl naměřen zcela bezchybným měřením. Jiným slovy jde o bezchybnou úroveň měřeného rysu. Nelze jej však zpravidla změřit přímo (jako například inteligence, neuroticismus, ale i míra školní úspěšnosti), měření navíc není přesné. Z tohoto důvodu je nutné pravý skór odhadovat z odpovědí jednotlivců na soubor testovacích položek. Následující rovnice proto není řešitelná bez několika zjednodušujících předpokladů.
Měřit lze jen tzv. manifestní rys, pozorovaný skór (observed score), tedy způsob, jakým se pravý skór projevuje v chování (odpovědi na položky testu apod.). Potom platí, že pozorovaný skór () se rovná součtu pravého skóru () a chyby měření ():
Standardní odchylka distribuce náhodných chyb pro každou měřenou osobu teoreticky udává rozsah chyby měření. Obvykle se předpokládá, že distribuce náhodných chyb bude stejná pro všechny měřené osoby. Pro odhad standardní chyby měření (SEM) se používá koeficient spolehlivosti testu (RXX) a standardní odchylka pozorovaného skóru (SX):
Cílem klasické testové teorie je vyčíslit právě hodnotu chyby měření, abychom věděli, s jak velkou mírou přesnosti usuzujeme na pravý skór. Tato operacionalizace s sebou nese několik předpokladů. Prvním z nich je, že chyba měření je náhodnou veličinou. Další předpoklady jsou shodné s lineární regresí: tedy normální rozložení proměnných atd.
Mezi hlavní předpoklady CTT patří, že skutečný skór a chyba měření nekorelují, stejně tak nekorelují chyby měření v paralelně prováděných testech, a průměrná hodnota chyb měření u respondentů se blíží nule.
Klasická testová teorie potom zkoumá vztah tohoto pravého skóru, pozorovaného skóru a chyby měření v populaci (např. testovaném souboru lidí) a odhaduje z něj kvalitu měření, udávanou prostřednictvím míry reliability. Reliabilita manifestního rysu , například skóru v testu, je označovaná a je definovaná jako poměr rozptylu rysu latentního k pozorovanému rozptylu rysu manifestního :
Takto vyčíslená reliabilita je shodná s korelací dvou paralelních měření jednoho souboru osob týmž testem v ideální situaci po odhlédnutí od chyby vznikajících tímto opakovaným měřením. Reliabilita tedy nabývá hodnot od 0 (žádná reliabilita) po 1 (maximální), a to proto, že rozptyl manifestního rysu je vždy vyšší právě o rozptyl chyby měření, než rozptyl rysu latentního:
Reliabilitu je možné pouze odhadovat, protože přesný rozptyl latentního rysu není znám. K tomu slouží více alternativních postupů, například odhad pomocí vnitřní konzistence testu, test-retest reliabilita, odhad prostřednictvím paralelních verzí a další.
Charakteristika položky
Analýza položek je soubor statistických postupů, které maximalizují spolehlivost skóru. Hlavními charakteristikami položek jsou obtížnost, diskriminace a spolehlivost.
Index obtížnosti položek (P) se vypočítá dělením počtu respondentů, kteří položku zodpověděli správně (R), celkovým počtem respondentů, kteří na danou otázku odpověděli (N). Jestliže je výsledná hodnota nižší než 0,30, položka bývá interpretována jako obtížná, a naopak, pokud je index obtížnosti vyšší než 0,70, položka může být považována za snadnou.
K určení diskriminace položky je potřeba rozdělit respondenty na dvě skupiny: skupinu s horšími výsledky a skupiny s lepšími výsledky. Respondenti jsou tedy na základě odpovědí v testu seřazeni dle jejich celkových výsledků. Z této skupiny se oddělí vrchních 27% respondentů a spodních 27% respondentů, kteří tvoří tyto dvě skupiny. Index diskriminace položky (D) se pak vypočítá rozdílem mezi podílem správných odpovědí vrchní skupiny (Pu) a podílem správných odpovědí spodní skupiny (Pi). Výsledná hodnota se pohybuje mezi hodnotami -1 a +1, kdy negativní index naznačuje, že položku zodpověděla správně větší část spodní skupiny a pozitivní hodnota naopak indikuje, že na položku odpověděla správně větší část horní skupiny.
Nedostatkem této metody při určování validity položek je to, že ignoruje prostředních 46% respondentů. Koeficient diskriminace však bere v potaz všechny respondenty. K jeho určení je nutné znát následující hodnoty: průměr (Mp) a podíl (p) všech studentů, kteří na položku odpověděli správně, průměr (Mq) a podíl (q) všech studentů, kteří na položku odpověděli nesprávně, a standardní odchylku pro celý test (St). Kvalita položky se pak podle koeficientu diskriminace (rpbi) určuje dle vzorce níže. Jestliže je koeficient diskriminace vyšší než 0,40, položka funguje poměrně uspokojivě. Hodnota nižší než 0,20 pak označuje nevhodnou položku, která by měla být z testu odstraněna či zcela revidována.
Výběr položek v klasické testové teorii
V klasické testové teorii je analýza položek založena na zjištění parametrů specifických pro konkrétní vzorek a odstranění položek založených na statistických kritériích nebo stanovených standardech. Špatná položka je identifikována pomocí indexu obtížnosti položky, který je příliš nízký (p<0,30) nebo příliš vysoký (p>0,70). Výběr položek je potom závislý na dvou kritériích, na obtížnosti položky a na diskriminaci položky. Obecně jsou preferovány položky s vysokými parametry diskriminace položky, nicméně výběr obtížnosti a diskriminace položek je většinou prováděn se znalostí účelu testu a očekávaného rozložení skupiny, jež se test chystá skládat. Chceme-li určit, kteří studenti jsou silní a mají nárok na udělení stipendia, je tendence vybírat spíše těžší položky do testu, který budou skládat všechny subjekty. Dále testy s konkrétní normou slouží k testování osob v jednotlivých disciplínách, např. v ekonomii. Z toho důvodu se v těchto testech zaměřujeme na co největší rozlišení testovaných dle znalostí, čímž získáme širokou škálu výsledků. Položky se pak volí na střední úrovni s nízkým rozptylem obtížnosti.
Význam reliability
neboli význam stability. Pro měření určitého celkem abstraktního znaku, který není často přímo pozorovatelný, např. sociální inteligence, politická orientace nebo také znalosti určité oblasti, potřebujeme nejprve navrhnout test. Výsledek tohoto testu budeme následně chápat jako schopnost testovaného obstát v tomto testu většinou s nějakým bodovým ziskem. Může se ale stát, že při zadání dvou testů dojdeme k odlišným hodnotám, ačkoliv se znalost testovaného nezměnila. Tyto rozdíly mohou být způsobeny chybou v měřícím přístroji. Chyba nastává při každém měření a velikou roli hraje také kontext, například testovaný může být unavený, vyrušovaný hlukem apod. V přírodních vědách je snadnější měřit i předvídat odchylky, „neboť je možné normalizovat, kontrolovat a mnohokrát opakovat podmínky měření“ (Schubert 106). Toto však v sociálních vědách není možné. Našim cílem je tedy zjistit, jaký výsledek se nejvíce blíží skutečné hodnotě, jak velká je chyba měření, a do jaké míry je měření konzistentní neboli stabilní.
Pojmenujme si znak, který chceme měřit (např. znalost anglického jazyka) konceptem. Pro jeho měření si stanovíme soubor otázek, které věříme, že odráží daný koncept. „Věříme, že hodnoty pozorované u těchto položek přestavují hodnotu latentní proměnné. Měřitelnou hodnotu označíme X, hodnotu latentní proměnné T a chybu měření E“ (Schubert 106). Pak tedy pozorovaná hodnota X je považovaná za funkci T a E (Lord, Novick 34).
CCT neboli klasická teorie testu je závislá na dvojím: zaprvé, skutečná hodnota T se mezi měřením nemění a zůstává stejná a zadruhé, měření jsou „lineárně experimentálně nezávislá“ (Lord, Novick 45). Ze studie Lorda a Novicka vyplývá, že chyba měření je skutečně nezávislá a variabilita je náhodná.
Dalším důležitým pojmem pro klasickou teorii testů je “paralelní měření”, které, jak název napovídá, závisí na dvou měřeních stejného konstruktu, které jsou paralelní. V tomto měření může být použito stejných či odlišných metod/otázek. Předpokladem však je, že znak během měření zůstane stejný. „Reliabilitu můžeme považovat za tu složku pozorované hodnoty, která není ovlivněna chybou měření“ (Schubert 106).
Výhody analýzy v klasické testové teorii
V klasické testové teorii není zapotřebí obstarat široký vzorek účastníků, stačí získat menší reprezentativní vzorek, pakliže se správně stanoví hlavní cíle a písemná podoba položek daného testu. Navíc využívá klasická testová teorie umně jednoduché, snadno ověřitelné matematické postupy. Stanovené předpoklady analýzy klasické testové teorie se následně potkávají s tradičními způsoby testování, což obecně nepůsobí problémy.
Omezení analýzy v klasické testové teorii
Potenciálním problémem výše zmíněné teorie může být např. závislost obtížnosti položky a diskriminace položky na konkrétním vzorku. Přesto je tato teorie hojně využívána tvůrci testů a je považována za velmi užitečnou u následné analýzy výsledků. Co se týče indexu diskriminace, vysoké hodnoty budou zaznamenány u skupin, jejíž vnitřní struktura je spíše nestejnorodá, zatímco opačné výsledky budou pozorovány u skupin, které vykazují známky určité stejnorodosti. U indexu obtížnosti se setkáváme s obdobným principem, tedy že účastníci s nadprůměrnými znalostmi generují spíše vyšší hodnoty indexu obtížnosti, kdežto nižší hodnoty indexu obtížnosti budou získány u podprůměrných či průměrných testovaných osob. Závislost indexů na konkrétním vzorku pak snižuje celkovou užitečnost klasické testové teorie.
Mezi další nevýhody klasické testové teorie patří fakt, že její aplikace je založená a zároveň závislá na testech. Obtížnost testu přímo ovlivňuje konečný výsledek testu. Jsou-li výsledky velmi dobré, má se za to, že test sestával z jednodušších položek, zatímco je-li tomu naopak, logika velí, že test obsahoval položky obtížnější. Model skutečné bilance testu, na níž je větší část klasické testové teorie založena, nepovoluje možnost zpětné vazby od účastníků, z toho důvodu není možné předpovědět, jak se bude danému účastníkovi v dané testové úloze dařit. Tato skutečnost potvrzuje, že znalost zkoušeného je přímo závislá na obtížnosti konkrétní testové položky. Abychom mohli porovnat výkony různých zkoušených osob, test musí obsahovat stejné nebo paralelní položky. Klasická testová teorie rovněž předpokládá, že chyba měření je stejná u všech testovaných subjektů. Z výše zmíněných důvodů proto řada tvůrců testů nakonec zvolí teorii odpovědi na položku.
Teorie odpovědi na položku vs. klasická testová teorie
- V rámci CTT jsou parametry položek závislé na testovaném vzorku, zatímco při použití IRT nejsou parametry položek závislé na schopnostech testovaných odpovídajících na položku.
- IRT je mnohem silnější, ale její využití je možné pouze pokud jsou k dispozici početnější vzorky, řádově 100 a více. Z tohoto důvodu je IRT nevhodná pro testování vzorků o velikosti školní třídy či dalších menších institucí čítajících méně než 100 respondentů.
- IRT je obecná statistická teorie, který se zabývá tím, jaký vztah je mezi výkonem testovaného a znalostmi měřenými položkami v testu.
- IRT je výrazně matematicky komplexnější a obtížnější a zahrnuje několik modelů, z nichž nejčastěji používanými jsou jedno-, dvou- a tří-parametrové IRT modely, z nichž tří-parametrové jsou nejkomplexnější.
- IRT poskytuje úplnější zdůvodnění pro modelově založené měření než CTT.
- IRT poskytuje obecnější podklad pro psychometrické metody.
Kritika
Hlavní kritika klasické testové teorie se opírá například o to, že data sbíraná testy jsou vlastně ordinální proměnné. CTT však předpokládá, že standardizované skóry z těchto dat vytvořené jsou již intervalové, a dále je zpracovává parametrickými metodami, aniž by tento předpoklad ověřovala. Problematický je i způsob využívání faktorové analýzy, který může snižovat validitu testů a další [3]. Přesto je klasická testová teorie nejjednodušším a v současnosti stále nejrozšířenějším přístupem ke standardizaci psychodiagnostických metod.
Odkazy
Reference
V tomto článku byl použit překlad textu z článku Classical test theory na anglické Wikipedii.
- Novick, M.R. (1966). The axioms and principal results of classical test theory. Journal of Mathematical Psychology Volume 3, Issue 1, February 1966, Pages 1-18
- Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading MA: Addison-Welsley Publishing Company
- Michell, J. (1999). Measurement in psychology: Critical history of a methodological concept. New York: Cambridge University Press.
Literatura
Lord, F. M. & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. London: Addison-Wesley Publishing.
Cígler, Hynek, & Martin Šmíra. "Chyba měření a odhad pravého skóru: Připomenutí některých postupů Klasické testové teorie." TESTFÓRUM [Online], 4.6 (2015): 67-84. Web. 12 kvě. 2018.
Schubert, J. 2010. „Klasická testová teorie reliability v metodologii výběrových šetření.“ Data a výzkum -SDA Info 4 (2): 105-122.
Traub, Ross E., and Charles W. Fisher. "On The Equivalence Of Constructed- Response And Multiple-Choice Tests." Applied Psychological Measurement 1.3 (1977): 355-369. Web.
Hwang, Dae-Yeop. "Classical Test Theory and Item Response Theory: Analytical and Empirical Comparisons." (2002).
Abdu Bichi, Ado, Rahimah Embong, and Mustafa Mamat. "Comparison of Classical Test Theory and Item Response Theory: A Review of Empirical Studies." Australian Journal of Basic and Applied Sciences 9.7 (2015): 549-556.