Hĺbková analýza dát
Hĺbková analýza dát (iné názvy: vyťažovanie dát[1], vyťažovanie údajov[2], dolovanie údajov[3], dolovanie dát[4]; angl. data mining) je proces analýzy dát z rôznych perspektív a ich sumarizácia na užitočné informácie. Spravidla ide o extrahovanie užitočných informácií z veľkých databáz, hľadanie korelácií alebo vzorov spomedzi tisícok polí v relačných databázach.
Využíva metódy štatistiky, matematiky (matematické modelovanie = klasifikačné pravidlá alebo stromy, regresia, zhluková analýza), umelej inteligencie (neuronové siete, rozpoznávanie, samoučiace sa algoritmy), nástroje OLAP (on-line analytické spracovanie)[5] a strojového učenia.
Typy modelov
- Predikčné modely – cieľom je na základe historických dát predpovedať budúcnosť
- Segmentačné modely – cieľom je roztriediť množstvo dát na zvládnuteľný počet homogénnych skupín
Aplikácia v praxi
- Propensity to Buy - cross-sell (predaj ďalších produktov existujúcim zákazníkom) a up-sell (zvýšenie spotreby daného produktu, doplnky)
- Credit risk - modelovanie pravdepodobnosti nesplácania úveru
- Fraud - identifikácia podvodov
- Churn - identifikácia zákazníkov náchylných na prechod ku konkurencii
- Segmentácia - zoskupovanie do homogénnych skupín
- Market Basket Analysis - analýza nákupného koša
- Diagnostické modely
- Modely analýzy časových radov
- Text mining
Delenie
Metodológie
- CRISP DM (SPSS)
- SEMMA (SAS)
- Virtuos cycle of data mining (Berry & Linoff)
Typické oblasti využitia
- marketing, podpora pri výbere klientov do marketingových kampaní (cross-sell, up-sell)
- poisťovníctvo, identifikácia podvodov, churn
- bankovníctvo, manažment rizika (credit risk, fraud)
- medicína, podpora pri stanovení pravdepodobnosti danej diagnózy
- telekomunikácie, cross-sell, up-sell, churn, fraud
- maloobchod, analýza nákupného koša, cross-sell, up-sell
- štátna správa, fraud
Algoritmy
- Lineárna regresia
- Logistická regresia
- Diskriminačná analýza
- Faktorová analýza
- Zhluková analýza
- Neurónové siete
- Support vector machines
- Rozhodovacie stromy
- Naivný Bayesov klasifikátor
- Bayesove siete
- Algoritmus k najbližších susedov (KNN)
- Kohonenove mapy
- Asociačné pravidlá
- Analýza sekvencií
- Analýza časových radov
Referencie
- https://www.vugtk.cz/slovnik/3905_dolovani-dat
- http://eur-lex.europa.eu/legal-content/SK/ALL/?uri=CELEX:52008IP0561
- http://www.vus.sk/iecd/new/Vyklad_srch.asp
- http://www2.fiit.stuba.sk/~kapustik/ZS/Clanky0708/hornak/index.html
- Kučerová, Helena. data mining. In KTD : Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2003- [cit. 2011-05-15]. Dostupné z WWW: .
Externé odkazy
- J. Paralič: Objavovanie znalostí v databázach. Elfa, Košice 2003, 80 s. ISBN 80-89066-60-7
Informatický portál |
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.