Analýza dat

Analýza dat je široká oblast aktivit a technik zpracování a využívání hromadných dat s cílem odhalit užitečné informace a podpořit rozhodování. Používá se ve vědě i v aplikovaných oblastech a její důležitost stále narůstá s tím, jak postupuje digitalizace a automatizace mnoha oblastí. Zahrnuje mimo jiné přípravu, kontrolu, čištění, transformaci, modelování, popis a vizualizaci dat.

K oblastem analýzy dat patří:

  • Statistická analýza dat, která se dále dělí na popisnou statistiku (sumarizace dat), explorační analýzu (EDA, hledá v datech dosud neznámé souvislosti) a konfirmační analýzu (CDA, testuje statistické hypotézy a odhaduje modely).
  • Business intelligence (BI) je analýza dat komerčních organizací, zaměřená na monitorování (Business reporting) a řízení jejich činnosti.
  • Vytěžování dat (data mining) a blízce příbuzná datová věda (data science) jsou oblasti zaměřené na průběžné získávání prakticky použitelných informací z dat s tím, že těžiště data miningu je více v prediktivním modelování (tj. předpovídání chování lidí či jiných jednotek) a těžiště datové vědy více ve zpracování velkých dat (Big data) a tvorbě aplikací.

Analýza dat v sociologickém výzkumu[1][2]

„vědecký výzkum je systematické, kontrolované, empirické a kritické zkoumání hypotetických výroků o předpokládaných vztazích mezi přirozenými jevy.“ [3]

Vědecký výzkum definujeme jako:[4]

  • systematický a kontrolovaný – znamená kritickou důvěru ve výzkumné výsledky
  • empirické vědecké bádání  – znamená, že vědec musí podrobit svůj názor vnějšímu ověření

Sekundární analýza[5]

  • Mezi zdroje dat pro sekundární analýzu patří archivní data, oficiální statistická data, databanky statistických údajů, datové publikace z výzkumů a datové soubory z výzkumů na počítači.

Deskripce

Nejzákladnější úlohou statistické analýzy dat je popis (deskripce) souboru dat. Soubor jednotek je charakterizován z hledisek jednotlivých znaků a jejich kombinací, a to prostřednictvím tabulek četností (frekvencí) kategorizovaných znaků a výpočtu souhrnných statistických charakteristik spojitých i kategorizovaných znaků.

Komparace

Jednou z nejčastějších úloh je srovnání souborů nebo podsouborů z hlediska jednoho nebo několika znaků. Porovnává populace státních celků, národů, přirozených sociálních skupin nebo uměle vytvořených agregátů. Klade si za cíl ověřit rozdílnost mezi nimi nebo změření velikost tohoto rozdílu, nebo naopak je její snahou prokázat, že rozdíly mezi nimi jsou zanedbatelné, že tvoří z hlediska zkoumané charakteristiky jeden soubor. Podrobnější informaci poskytuje porovnání statistických rozložení znaku za podsoubory. To je však obtížnější a provádí se zřídka, ve speciálních úlohách.

Měření asociací a korelační analýza

Třetí skupinou úloh je zjišťování souvislostí mezi znaky (např. vztah mezi kouřením a konzumací alkoholu nebo mezi pozitivním postojem k ekonomické reformě a jednotlivými charakteristikami životní úrovně dotázaného). Zjišťuje, zda vztah mezi znaky je významný. K tomu slouží celá řada statistických testů lišících se podle typů znaků, které dávají do souvislosti. Další velmi častou úlohou je měření síly tohoto prokázaného vztahu. Přitom je třeba rozlišovat, zda se jedná o souvislost mezi dvěma nominálními znaky, mezi znaky pořadovými nebo mezi znaky kardinálními. Každé úrovni odpovídá jiná nabídka koeficientů.

Další metody a možnosti mnohorozměrné analýzy dat

Existuje množství statistických metod analýzy dat. Jejich velká skupina zkoumá vztahy mezi mnoha znaky současně tj. metody mnohorozměrné analýzy dat. Každá z těchto metod má za sebou jiný matematicko-statistický model, má jiné požadavky na charakter proměnných, které do ní vstupují, klade jiné nároky na výzkumníkovu schopnost formulovat smysluplnou sociologickou úlohu a přeložit ji do řeči čísel a matematických symbolů. Z hlediska sociologa výzkumníka se metody liší zejména modelovou představou úlohy, pro jejíž řešení mají sloužit.

Reference

  1. HENDL, JAN, 1947-. Přehled statistických metod zpracování dat : analýza a metaanalýza dat. Vyd. 2., opr. vyd. Praha: Portál 583 s. Dostupné online. ISBN 80-7367-123-9, ISBN 978-80-7367-123-5. OCLC 320480057
  2. RABUŠIC, LADISLAV, 1954-. Statistická analýza sociálněvědních dat (prostřednictvím SPSS). 2., přepracované vydání. vyd. Brno: [s.n.] 573 s. Dostupné online. ISBN 978-80-210-9248-8, ISBN 80-210-9248-3. OCLC 1135606543
  3. KERLINGER, Fred N. Draft report of the APA Committee on Ethical Standards in Psychological Research: A critical reaction.. American Psychologist. 1972, roč. 27, čís. 9, s. 894–896. Dostupné online [cit. 2020-11-14]. ISSN 0003-066X. DOI 10.1037/h0038038.
  4. 1. web.ftvs.cuni.cz [online]. [cit. 2020-11-14]. Dostupné online.
  5. 10. web.ftvs.cuni.cz [online]. [cit. 2020-11-14]. Dostupné online.
  6. 10. web.ftvs.cuni.cz [online]. [cit. 2020-11-14]. Dostupné online.

Externí odkazy

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.