Velká data

Velká data (anglicky big data, česky někdy veledata) jsou podle jedné z možných definic soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky v rozumném čase.[1] Často bývá v textech na dané téma používáno i v češtině přímo big data jako pojem označující technickou kategorii, tedy bez překladu.

Vizualizace dat vytvořená firmou IBM. Jde o data ukazující editační aktivity jednoho z robotů Wikipedie. Data Wikipedie jsou svým rozsahem, nestrukturovaností informací a variabilitou dat vhodným příkladem pro big data.

Big data a datové sklady

Velké objemy dat jsou nyní (2013) obvykle ukládány v datových skladech. Do datových skladů jsou ukládány z různých zdrojů a existujících informačních systémů pomocí procedur ETL. Většinou jde již o data ve strukturované podobě. Data jsou do datového skladu přenášena v předem daných cyklech a následně je nad nimi provedena analýza již připravenými algoritmy. Dalším běžným způsobem je provádění dalších analýz a výpočtů na vyžádání.[1] Obvykle se v datových skladech pracuje s daty o objemu terabytů.[1]

Na rozdíl od toho se v big datech hovoří o objemech dat v petabytech.[2] Petabyte je 1 000 000 000 000 000 bytů, tedy 1015 bytů. Jde tedy o objemy o tři řády větší. Problematikou zpracování velkých objemů dat zabývají například i VLDB a XLDB.

Kategorie big data nelze zjednodušit na prosté zvětšení nároků na zpracování většího objemu dat. Jde i o jejich další charakteristiky. V literatuře je používán pojem 3V z počátečních písmen anglických slov volume, velocity a variety charakterizujících big data.[1] Některé zdroje přidávají i čtvrté V pro veracity.[3]

volume (objem)
Objem dat narůstá exponenciálně.
velocity (rychlost)
Objevují se úlohy vyžadující okamžité zpracování velkého objemu průběžně vznikajících dat. Vhodným příkladem může být zpracování dat produkovaných kamerou.
variety (různorodost, variabilita)
Kromě obvyklých strukturovaných dat jde o úlohy pro zpracování nestrukturovaných textů, ale i různých typů multimediálních dat.
veracity (věrohodnost)
Nejistá věrohodnost dat v důsledku jejich inkonzistence, neúplnosti, nejasnosti a podobně. Vhodným příkladem mohou být údaje čerpané z komunikace na sociálních sítích.

Nástroje pro big data

Známým nástrojem pro zpracování big dat je Hadoop.[1] Nejde ale o nástroj řešící problematiku big dat úplně. Jde jen o jeden z nástrojů pro big data a navíc jde o opensourceový software, což může být pro některé zákazníky problematické. Proto více IT firem, které dodávají nástroje a řešení pro big data používá sice Hadoop, ale jen jako základ pro některý z jimi dodávaných nástrojů pro zpracování big dat.

Odkazy

Reference

  1. DOLÁK, Ondřej. Big data, Nové způsoby zpracování a analýzy velkých objemů dat [online]. 2011 [cit. 2013-01-03]. Dostupné online.
  2. LYNCH, Clifford. Big data: How do your data grow? [online]. 2008-08-03 [cit. 2013-01-03]. Dostupné online. (anglicky)
  3. CLAVERIE-BERGE, Isabelle. Solutions Big Data IBM [online]. 2012-03-13 [cit. 2013-01-03]. Dostupné v archivu pořízeném dne 2014-04-26. (anglicky)

Literatura

  • MAYER-SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big Data : Revoluce, která změní způsob, jak žijeme, pracujeme a myslíme. Překlad Jakub Goner. 1. vyd. Brno: Computer Press, 2014. 256 s. ISBN 978-80-251-4119-9.

Související články

Externí odkazy

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.