Hĺbková analýza dát

Hĺbková analýza dát (iné názvy: vyťažovanie dát[1], vyťažovanie údajov[2], dolovanie údajov[3], dolovanie dát[4]; angl. data mining) je proces analýzy dát z rôznych perspektív a ich sumarizácia na užitočné informácie. Spravidla ide o extrahovanie užitočných informácií z veľkých databáz, hľadanie korelácií alebo vzorov spomedzi tisícok polí v relačných databázach.

Využíva metódy štatistiky, matematiky (matematické modelovanie = klasifikačné pravidlá alebo stromy, regresia, zhluková analýza), umelej inteligencie (neuronové siete, rozpoznávanie, samoučiace sa algoritmy), nástroje OLAP (on-line analytické spracovanie)[5] a strojového učenia.

Typy modelov

  • Predikčné modely – cieľom je na základe historických dát predpovedať budúcnosť
  • Segmentačné modely – cieľom je roztriediť množstvo dát na zvládnuteľný počet homogénnych skupín

Aplikácia v praxi

  • Propensity to Buy - cross-sell (predaj ďalších produktov existujúcim zákazníkom) a up-sell (zvýšenie spotreby daného produktu, doplnky)
  • Credit risk - modelovanie pravdepodobnosti nesplácania úveru
  • Fraud - identifikácia podvodov
  • Churn - identifikácia zákazníkov náchylných na prechod ku konkurencii
  • Segmentácia - zoskupovanie do homogénnych skupín
  • Market Basket Analysis - analýza nákupného koša
  • Diagnostické modely
  • Modely analýzy časových radov
  • Text mining

Delenie

Metodológie

  • CRISP DM (SPSS)
  • SEMMA (SAS)
  • Virtuos cycle of data mining (Berry & Linoff)

Typické oblasti využitia

Algoritmy

  • Lineárna regresia
  • Logistická regresia
  • Diskriminačná analýza
  • Faktorová analýza
  • Zhluková analýza
  • Neurónové siete
  • Support vector machines
  • Rozhodovacie stromy
  • Naivný Bayesov klasifikátor
  • Bayesove siete
  • Algoritmus k najbližších susedov (KNN)
  • Kohonenove mapy
  • Asociačné pravidlá
  • Analýza sekvencií
  • Analýza časových radov

Softvér

  • DOCKitIN
  • SAS
  • SPSS Clementine, SPSS
  • Statistica
  • SQL Server
  • Oracle Data miner
  • IBM DB2 Intelligent Miner
  • R (slobodný softvér)
  • Weka (slobodný softvér)
  • RapidMiner, pred 2007-05-27 pod menom YALE (slobodný softvér)
  • MATLAB

Referencie

  1. https://www.vugtk.cz/slovnik/3905_dolovani-dat
  2. http://eur-lex.europa.eu/legal-content/SK/ALL/?uri=CELEX:52008IP0561
  3. http://www.vus.sk/iecd/new/Vyklad_srch.asp
  4. http://www2.fiit.stuba.sk/~kapustik/ZS/Clanky0708/hornak/index.html
  5. Kučerová, Helena. data mining. In KTD : Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2003- [cit. 2011-05-15]. Dostupné z WWW: .

Iné projekty

Externé odkazy

Informatický portál
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.