Data science
Data science neboli datová věda je interdisciplinární obor, který využívá vědecké metody, procesy, algoritmy a systémy pro získávání znalostí a poznatků z dat v různých podobách, jak strukturovaných, tak nestrukturovaných[1][2] podobně jako data mining.
Data science "sjednocuje statistiku, analýzu dat, strojové učení a související metody" s cílem "pochopit a analyzovat skutečné jevy" na základě dat.[3] Využívá techniky a teorie čerpané z mnoha oblastí matematiky, statistiky, informatiky a matematické informatiky.
Nositel Turingovy ceny Jim Gray si data science představoval jako „čtvrté paradigma“ vědy (empirické, teoretické, výpočetní a nyní založené na datech) a tvrdil, že „všechno ve vědě se mění v důsledku vlivu informačních technologií“ a záplavy dat.[4][5]
V roce 2012, kdy Harvard Business Review nazval data science "nejvíce sexy zaměstnáním 21. století"[6] se tento termín stal módním slovem. To je nyní často používáno zaměnitelně se staršími pojmy jako business analytics,[7] business intelligence, prediktivní modelování, data mining a statistika. Dokonce i myšlenka, že datová věda je sexy, parafrázuje Hanse Roslinga, který v dokumentu BBC 2011[8] prohlásil: "Statistika je nyní nejvíce sexy téma, které tu máme."[9] Nate Silver označil datovou vědu za sexy termín pro statistiku.[10] V mnoha případech jsou nyní dřívější přístupy a řešení jednoduše přejmenovávány jako data science, aby byly atraktivnější, což může způsobit, že termín se "zředí [...] za hranici užitečnosti".[11] I když mnohé univerzitní programy nyní nabízejí titul v oboru datové vědy, neexistuje konsensus o její definici nebo o obsahu učebních osnov.[7] K diskreditaci data science přispívá mnoho projektů v oblasti datové vědy a velkých dat, které nedokázaly poskytnout užitečné výsledky, často v důsledku špatného řízení a využívání zdrojů.[12][13][14][15]
Dějiny
Termín datová věda se objevoval v různých souvislostech už desítky let, ale až donedávna se neustálil. Dříve byl používán jako synonymum informatiky Peterem Naurem v roce 1960. Naur později představil termín "datalogy".[16] V roce 1974 vydal Naur knihu Concise Survey of Computer Methods (Stručný přehled počítačových metod), kde volně využíval termín data science v přehledu současných metod zpracování dat používaných v široké škále aplikací.
V roce 1996 se členové Mezinárodní federace klasifikačních společností (Federation of Classification Societies, IFCS) sešli v Kóbe na konferenci konané každé dva roky. Zde se poprvé termín data science objevil v názvu konference (Data Science, classification, and related methods – Věda o datech, klasifikace a související metody).[17] poté, co byl zaveden v neformální diskusi Chikiem Hayashim.[3]
V listopadu 1997 přednesl C. F. Jeff Wu inaugurační přednášku nazvanou "Statistics = Data Science?"[18] u příležitosti jmenování profesorem Michiganské univerzity.[19] V přednášce charakterizoval statistickou práci jako trojici sběru dat, modelování či analýzy dat a rozhodování. Na závěr uvedl moderní použití termínu data science mimo kontext informatiky a navrhl přejmenování statistiky na data science a statistiků na data scientisty, datové vědce.[18] Později přednášku "Statistics = Data Science"? zopakoval roku 1998 jako první ze svých Mahalanobisovských přednášek.[20]
V roce 2001 William S. Cleveland uvedl datovou vědu jako nezávislou disciplínu, která rozšiřuje oblast statistiky tak, aby zahrnovala "pokroky v oblasti výpočetní techniky s daty". Myšlenku uveřejnil v článku "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics" ("Data Science: akční plán rozšiřování technických oblastí statistiky"), který byl publikován ve svazku 69, č. 1, dubnového vydání International Statistical Review / Revue Internationale de Statistique z dubna 2001.[21] Cleveland zde stanovil šest oblastí, o kterých věřil, že zahrnují data science: multidisciplinární bádání, modely a metody pro zpracování dat, výpočty s daty, pedagogika, hodnocení výzkumných nástrojů a teorie.
V dubnu 2002 zahájila Mezinárodní rada pro vědu (International Council for Science, ICSU) a její Výbor pro data pro vědu a technologii (Committee on Data for Science and Technology, CODATA)[22] vydávání časopisu Data Science Journal[23] zaměřeného na otázky, jako je popis datových systémů, na internetu, aplikace a právní otázky.[24] Krátce poté, v lednu 2003, Columbijská univerzita začala publikovat časopis Journal of Data Science[25] který poskytl platformu všem datovým pracovníkům, aby prezentovali své názory a vyměňovali si nápady. Časopis byl z velké části věnován aplikaci statistických metod a kvantitativního výzkumu. Národní vědecká rada (National Science Board) vydala v roce 2005 text "Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century" ("Dlouhodobý sběr digitálních dat: umožnění výzkumu a vzdělávání v 21. století"), definující datové vědce jako "informační a počítačové vědce, databázové a softwarové tvůrce a programátory, experty jednotlivých disciplín, kurátory a odborní anotátory, knihovníky, archiváře a další, kteří mají zásadní význam pro úspěšné řízení sběru digitálních dat", jejichž hlavní činností je" provádět tvůrčí výzkum a analýzu".[26]
Okolo roku 2007 Jim Gray představil „vědu řízenou daty“ jako „čtvrté paradigma“ vědy, které využívá počítačovou analýzu velkých dat jako základní vědeckou metodu[4][5] a přál si „mít svět, v němž veškerá vědecká literatura je online a všechny vědecké údaje jsou online a vzájemně spolupracují."[27]
V článku z roku 2012 Harvard Business Review "Data Scientist: The Sexiest Job of the 21st Century" ("Data Scientist: Nejvíce sexy povolání 21. století"[6] DJ Patil tvrdí, že tento termín vytvořili v roce 2008 s Jeffem Hammerbacherem, aby definovali svou práci v LinkedIn a Facebooku. Tvrdí, že datový vědec je "nové plemeno" a že "nedostatek datových vědců se v některých sektorech stává vážným omezením" a popisuje mnohem více podnikatelsky orientované role.
V roce 2013 byla založena pracovní skupina IEEE pro data science a pokročilou analýzu (IEEE Task Force on Data Science and Advanced Analytics).[28] V roce 2013 byla v Lucembursku zorganizována první Evropská konference o data science (European Conference on Data Analysis ECDA), která zřídila Evropskou asociaci pro datovou vědu (EuADS). První mezinárodní konference IEEE International Conference on Data Science and Advanced Analytics se konala v roce 2014.[29] V tomtéž roce sekce American Statistical Association (Amerického statistického sdružení) věnovaná statistickému učení a data miningu přejmenovala svůj časopis na "Statistical Analysis and Data Mining: The ASA Data Science Journal" a v roce 2016 změnila svůj název na "Statistical Learning and Data Science".[30] V roce 2015 začalo nakladatelství Springer vydávat časopis International Journal on Data Science a Analytics[31] mající za úkol publikoval originální díla o datové vědě analýze velkých dat. V září 2015 přidala Gesellschaft für Klassifikation (GfKl) ke jménu společnosti "Data Science Society".[32]
Vztah ke statistice
Popularita pojmu "data science" v podnikatelském i akademickém prostředí prudce narostla, což ukazuje nárůst nabídek práce pro datové vědce.[33] Nicméně mnoho kritických akademických pracovníků a novinářů nevidí žádný rozdíl mezi datovou vědou a statistikou. Gil Press v časopise Forbes uvedl, že data science je "buzzword" bez jasné definice a jednoduše nahradil „obchodní analýzu“ v kontextech jako jsou postgraduální studijní programy.[7] V rámci otázek a odpovědi po své plenární přednášce na konferenci American Statistical Association aplikovaný statistik Nate Silver řekl: "Myslím, že datový vědec je sexy termín pro statistika. ... Statistika je odvětví vědy. Data scientist je lehce nadbytečný a lidé by neměli opouštět termín statistik."[10] Stejně tak v podnikatelském sektoru řada výzkumníků a analytiků uvádí, že samotní data scientisté zdaleka nestačí dát podnikům skutečnou konkurenční výhodu[34] a považují je za pouze jednu ze čtyř velkých skupin profesí potřebných k tomu, aby podniky efektivně využívaly velká data; jsou to analytici, data scientisté, vývojáři velkých dat a inženýři velkých dat.[35]
Na tuto kritiku přišla řada reakcí. V článku ve Wall Street Journal v roce 2014 Irving Wladawsky-Berger porovnává nadšení nad data science s úsvitem počítačové vědy. Argumentuje, že data science stejně jako jakákoli jiná interdisciplinární oblast využívá metodiky a praktiky z celé akademické i komerční sféry, ale pak je přetvoří do nové disciplíny. Uvádí ostré kritiky, kteří v minulosti útočili na informatiku, nyní uznávanou akademickou disciplínou.[36] Podobně Vasant Dhar z New York University stejně jako řada dalších akademických zastánců datové vědy[36] v prosinci 2013 konkrétněji argumentoval, že se data science liší od stávající praxe analýzy dat ve všech oborech, která se zaměřuje pouze na vysvětlení datových souborů. Data science hledá uplatnitelné a konzistentní pravidelnosti v datech vhodné prediktivní využití.[1] Tento praktický inženýrský cíl vyděluje datovou vědu mimo rámec tradiční analytiky. Nyní lze data hledat a využívat i v těch disciplínách a aplikovaných oborech, které nemají spolehlivé teorie, jako jsou zdravotnictví a společenské vědy, a mohly by zde být na základě těchto dat vytvořeny silné prediktivní modely.[1]
V podobném duchu se v září 2015 vyjádřil profesor ze Stanfordu David Donoho. Přitom odmítl tři zjednodušující a zavádějící definice data science, jež bývají předmětem kritiky.[37] Za prvé se podle Donoha datová věda nedá ztotožnit s velkými daty, neboť velikost datového souboru není kritériem pro rozlišování mezi datovou vědou a statistikou.[37] Za druhé datová věda není definována výpočetními schopnostmi zpracování velkých souborů dat, neboť tyto možnosti jsou již obecně používány pro analýzy ve všech oborech.[37] Za třetí datová věda je silně aplikovaný obor, v němž akademické programy v současné době dostatečně nepřipravují dorost, protože řada absolventských programů zavádějícím způsobem inzeruje svou analytickou a statistickou výuku jako podstatu kurikula pro datovou vědu.[37][38] Donoho jakožto statistik spolu s mnoha kolegy jeho oboru podporuje rozšíření rozsahu učiva adeptů datové vědy.[37] Také John Chambers žádá statistiky, aby přijali inkluzivní koncepci učení z dat,[39] a William Cleveland požaduje, aby se upřednostňovalo vytváření predikcí nad vysvětlujícími teoriemi.[21] Společnou vizí těchto statistiků je stále obsáhlejší aplikovaný obor, které přerůstá hranice tradiční statistiky.
Budoucnost datové vědy vidí Donoho v neustále rostoucím prostředí otevřené vědy, kde jsou datové soubory využívané akademickými publikacemi přístupné všem výzkumníkům.[37] Americký národní zdravotní ústav již oznámil plány na zvýšení reprodukovatelnosti a průhlednosti výzkumných údajů.[40] Některé velké odborné časopisy již následují tento trend.[41][42] Tímto způsobem budoucnost datové vědy nejen překračuje hranice statistické teorie co do rozsahu a metodologie, ale data science znamená výzvu současným akademickým a výzkumným paradigmatům.[37] Jak dodává Donoho, "rozsah a dopad datové vědy se v nadcházejících desetiletích bude nadále rozšiřovat, neboť vědecká data i data o samotné vědě se stanou všeobecně dostupnými".[37]
Reference
V tomto článku byl použit překlad textu z článku Data science na anglické Wikipedii.
- DHAR, V. Data science and prediction. Communications of the ACM. 2013, s. 64. Dostupné online. DOI 10.1145/2500499. (anglicky)
- Archivovaná kopie [online]. [cit. 2019-01-17]. Dostupné v archivu pořízeném dne 2014-01-02.
- [s.l.]: [s.n.] Dostupné online. ISBN 9784431702085. DOI 10.1007/978-4-431-65950-1_3.
- [s.l.]: [s.n.] Dostupné online. ISBN 978-0-9825442-0-4.
- BELL, G.; HEY, T.; SZALAY, A. COMPUTER SCIENCE: Beyond the Data Deluge. Science. 2009, s. 1297–1298. ISSN 0036-8075. DOI 10.1126/science.1170411. (anglicky)
- [s.l.]: [s.n.] (anglicky)
- Data Science: What's The Half-Life Of A Buzzword? [online]. [cit. 2022-04-16]. Dostupné online.
- BBC Four - The Joy of Stats. BBC [online]. [cit. 2022-04-16]. Dostupné online. (anglicky)
- www.nytimes.com. Dostupné online.
- Archivovaná kopie [online]. [cit. 2019-01-17]. Dostupné v archivu.
- Archivovaná kopie. radar.oreilly.com. Dostupné v archivu pořízeném dne 2019-02-01.
- REDMAN, Thomas C. Are You Setting Your Data Scientists Up to Fail?. Harvard Business Review. 2018-01-25. Dostupné online [cit. 2022-04-16]. ISSN 0017-8012.
- 70% of Big Data projects in UK fail to realise full potential. www.consultancy.uk [online]. 2018-04-30 [cit. 2022-04-16]. Dostupné online. (anglicky)
- analytics-magazine.org. Dostupné online.
- Data Science: 4 Reasons Why Most Are Failing to Deliver [online]. [cit. 2022-04-16]. Dostupné online. (anglicky)
- NAUR, Peter. The science of datalogy. Communications of the ACM. 1 July 1966, s. 485. DOI 10.1145/365719.366510. (anglicky)
- PRESS, Gil. A Very Short History Of Data Science. Forbes [online]. [cit. 2022-04-16]. Dostupné online. (anglicky)
- Dostupné online.
- Briefings. ur.umich.edu [online]. [cit. 2022-04-16]. Dostupné online.
- Archivovaná kopie [online]. [cit. 2019-01-17]. Dostupné v archivu pořízeném dne 2013-10-29.
- Cleveland, WS (2001). Věda o údaji: akční plán pro rozšíření technických oblastí statistiky . Mezinárodní statistické hodnocení / Revue Internationale de Statistique, 21-26
- Mezinárodní rada pro vědu: Výbor pro údaje pro vědu a techniku. (2012, duben). CODATA, Výbor pro údaje o vědě a technice. Obdržel od Mezinárodní rady pro vědu: Výbor pro údaje o vědě a technice: http://www.codata.org/
- Data Science Journal. (2012, April). Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols Archivováno 3. 4. 2012 na Wayback Machine
- Data Science Journal. (2002, duben). Obsah svazku 1, vydání 1, duben 2002. Získaný z japonského vědeckotechnologického informačního agregátoru, elektronický: http://www.jstage.jst.go.jp/browse/dsj/1/0/_contents
- Časopis vědy o datech. (2003, leden). Obsah svazku 1, vydání 1, leden 2003. Citováno z http://www.jds-online.com/v1-1 Archivováno 22. 8. 2012 na Wayback Machine
- US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century. www.nsf.gov [online]. [cit. 2022-04-16]. Dostupné online.
- www.nytimes.com. Dostupné online. ISSN 0362-4331.
- Data Science and Advanced Analytics. Data Science and Advanced Analytics [online]. [cit. 2022-04-16]. Dostupné online.
- Archivovaná kopie [online]. [cit. 2019-01-17]. Dostupné v archivu pořízeném dne 2017-03-29.
- ASA Expands Scope, Outreach to Foster Growth, Collaboration in Data Science | Amstat News [online]. 2016-06-01 [cit. 2022-04-16]. Dostupné online. (anglicky)
- International Journal of Data Science and Analytics. Springer [online]. [cit. 2022-04-16]. Dostupné online. (anglicky)
- Gesellschaft für Klassifikation (GfKl) – Data Science Society [online]. [cit. 2022-04-16]. Dostupné online. (německy)
- fortune.com. Dostupné online.
- MILLER, Steven. Collaborative Approaches Needed to Close the Big Data Skills Gap. Journal of Organization Design. 2014-04-10, s. 26–30. Dostupné online. ISSN 2245-408X. DOI 10.7146/jod.9823. (anglicky)
- DE MAURO, Andrea; GRECO, Marco; GRIMALDI, Michele; RITALA, Paavo. Human resources for Big Data professions: A systematic classification of job roles and required skill sets. Information Processing & Management. Dostupné online. DOI 10.1016/j.ipm.2017.05.004. (anglicky)
- blogs.wsj.com. Dostupné online.
- DONOHO, David. 50 Years of Data Science. Based on a talk at Tukey Centennial workshop, Princeton NJ Sept 18 2015. September 2015. Dostupné online. (anglicky)
- [s.l.]: [s.n.]
- CHAMBERS, John M. Greater or lesser statistics: a choice for future research. Statistics and Computing. 1993-12-01, s. 182–184. Dostupné online. ISSN 0960-3174. DOI 10.1007/BF00141776. (anglicky)
- COLLINS, Francis S.; TABAK, Lawrence A. NIH plans to enhance reproducibility. Nature. 2014-01-30, s. 612–613. ISSN 0028-0836. DOI 10.1038/505612a. PMID 24482835. (anglicky)
- MCNUTT, Marcia. Reproducibility. Science. 2014-01-17, s. 229–229. Dostupné online. ISSN 0036-8075. DOI 10.1126/science.1250475. PMID 24436391. (anglicky)
- PENG, Roger D. Reproducible research and Biostatistics. Biostatistics. 2009-07-01, s. 405–408. Dostupné online. ISSN 1465-4644. DOI 10.1093/biostatistics/kxp014. (anglicky)