p-hodnota
p-hodnota (také označovaná anglicky p-value nebo jako signifikance, v počítačových výstupech někdy zkracovaná p nebo sig.) je číselná hodnota používaná při statistickém testování hypotéz. Testujeme-li na daném statistickém souboru nulovou hypotézu na hladině významnosti pomocí testové statistiky , lze p-hodnotu definovat dvěma ekvivalentními způsoby:
- p-hodnota je nejmenší hladina významnosti (infimum hodnot ), při které ještě zamítneme ;
- p-hodnota je pravděpodobnost, že při platnosti nabývá testová statistika své stávající hodnoty anebo hodnot ještě extrémnějších (nepříznivějších vůči ).
V praxi se p-hodnota používá tak, že si předem stanovíme hladinu významnnosti , poté spočítáme pomocí statistického programu p-hodnotu a porovnáme ji s . Vyjde-li p-hodnota menší než , nulovou hypotézu zamítneme, zatímco v opačném případě prohlásíme, že na základě zkoumaných dat ji s použitím daného testu zamítnout nelze. Čím menší tedy je p-hodnota, tím se nulová hypotéza jeví za jinak stejných podmínek nevěrohodnější.
Příklad
Hráč provedl 300 hodů hrací kostkou, aby vyzkoušel, zda všechna čísla padají se stejnou pravděpodobností. Chce testovat na hladině významnosti = 0,05. Četnosti jednotlivých výsledků jsou 58, 46, 39, 61, 35 a 61. Test dobré shody vykonejme pomocí softwaru R zadáním příkazů:
kostka <- c(58, 46, 39, 61, 35, 61) chisq.test(kostka)
Výstup je potom:
Chi-squared test for given probabilities data: kostka X-squared = 13.36, df = 5, p-value = 0.02023
Poněvadž vypočítaná p-hodnota 0,02023 je menší než zvolená hodnota = 0,05, na hladině 0,05 zamítáme nulovou hypotézu stejné pravděpodobnosti všech výsledků a na základě naměřených dat máme za to, že hrací kostka je „cinknutá“.
Kdybychom údaj o p-hodnotě neměli k dispozici, museli bychom v tabulkách vyhledat 95. percentil rozdělení chí-kvadrát o pěti stupních volnosti (df) a porovnat ho s testovou statistikou 13,36. Pokud by – jako v tomto případě – kvantil byl menší než testová statistika, nulovou hypotézu bychom zamítli, a v opačném případě nezamítli. Tento krok nám však p-hodnota ušetřila.
Diskuse
Oproti klasickému postupu testování spojenému s vyhledáváním kvantilů rozdělení v tabulkách se s využitím p-hodnot práce analytika značně zjednodušuje, neboť pro rozhodnutí o výsledku testu stačí porovnat dvě čísla. Tato snadnost však někdy svádí k mechanickému přístupu, přehlížení dalších faktorů potřebných pro posouzení validity a smyslu testů nebo dokonce k vědomé či nevědomé metodologické nekorektnosti při výzkumu. Je potřeba mít na mysli zejména následující fakta:[1]
- Není pravda, že by p-hodnota přímo vyjadřovala pravděpodobnost nulové hypotézy anebo pravděpodobnost, že alternativní hypotéza neplatí.
- p-hodnota není ani pravděpodobnost, že data vznikla čistě náhodou za předpokladu platnosti .
- p-hodnota nic přímo nevypovídá o velikosti nebo praktické významnosti pozorovaného účinku (viz velikost účinku).
- Hladina významnosti 0,05 je jen konvence, takže pro posouzení výsledků experimentu je potřeba dodat i další informace o kontextu a o dopadu zjištění.
- Pokud testujeme mnoho hypotéz zároveň, stane se i při platnosti nulové hypotézy, že některé testy zákonitě vyjdou signifikantní - například při použití hladiny významnosti 0,05 takto vyjde zhruba 5 testů ze 100 provedených při platnosti . Pro správné posouzení více zároveň prováděných testů je potřeba použít mnohonásobné testování (multiple testing).
- Je neetické zneužívat mnohonásobné testování tím, že výzkumník tak dlouho provádí testy a modifikuje svá data, dokud nezíská p-hodnotu menší než 0,05, aniž by na uvedené manipulace upozornil ve svém výstupu (postup označovaný jako p-hacking). Podobné nekorektní postupy jsou jednou z příčin současné krize replikovatelnosti výzkumných výstupů v řadě disciplin.
Reference
- WASSERSTEIN, Ronald L.; LAZAR, Nicole A. The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician. 2016-04-02, roč. 70, čís. 2, s. 129–133. Dostupné online [cit. 2020-02-18]. ISSN 0003-1305. DOI 10.1080/00031305.2016.1154108.