Deduplikace
Deduplikace je speciální technika komprese dat, která zabraňuje ukládání stejných datových bloků na jednom úložišti. Deduplikační jednotka ukládá informace (referenční informace) o datové struktuře a díky tomu je schopná při zpětném čtení deduplikovaných dat zpět obnovit původní, komplexní informaci. Účelem deduplikace je úspora místa na datovém úložišti. Kromě této varianty, tzv. blokové deduplikace, existuje ještě deduplikace na úrovni souborů, kdy je ukládána pouze jedna kopie (instance) souboru/přílohy e-mailu. Příkladem budiž ukládání e-mailových zpráv v systému Microsoft Exchange[1], nebo Windows Single Instance Storage[2].
Metody deduplikace
Post-procesní deduplikace
Nová data jsou nejprve uložena na cílové úložiště a poté off-line deduplikována. Nevýhodou je nutnost disponovat kapacitou úložiště odpovídající reálnému množství datových bloků. Ty jsou ukládány a teprve následně (po skončení procesu ukládání) optimalizovány.
In-line deduplikace
Data jsou deduplikována ještě před uložením na cílové úložiště v reálném čase. Vyhodnocuje se přítomnost datového bloku na úložišti a pokud již existuje, nezapíše se. Pouze je vytvořena reference na datový blok v deduplikační jednotce. Nevýhodou je pomalejší „zápis“ na cílové úložiště, který je zpomalen rozhodovacím procesem deduplikační jednotky. V současnosti jsou však nabízena řešení, která se výkonnostně blíží post-procesním deduplikačním systémům.
Zdrojová deduplikace
Zajišťuje deduplikaci na zdroji dat. Často bývá uplatňována v rámci operačního systému. Operační systém pravidelně kontroluje hashe vzniklé při tvorbě nových souborů a porovnává je s již existujícími hashi již existujících souborů. Pokud je nalezena shoda, kopie souboru je odstraněna a je vytvořen ukazatel na starý soubor. V praxi je tato metoda upozaďována před cílovou deduplikací z výkonnostních důvodů. U primárního úložiště (DAS serveru apod.) je většinou kladen důraz na vysoký výkon, který deduplikační proces může negativně ovlivnit.
Cílová deduplikace
Zajišťuje deduplikaci na sekundárním úložišti (např. v disk-to-disk schématu, nebo u VTL – virtuální pásková knihovna). Jde o v praxi preferovanější metodu.
Situace na trhu
V současnosti jsou používány deduplikační systémy jako kombinace diskového pole (např. VTL) a deduplikačního softwaru. K dispozici jsou řešení společnosti NetApp, IBM, EMC, NortonLifeLock a další.
Reference
- http://support.microsoft.com/kb/175481/en-us/ - Technika Single-Instance Storage v Microsoft Exchange
- http://technet.microsoft.com/en-us/library/cc978320.aspx - Popis single Instance Store na Microsoft Technetu
Externí odkazy
- Článek na webu ICT manažer s přehledem všech přínosů deduplikace Archivováno 6. 3. 2012 na Wayback Machine
- Data ONTAP od společnosti NetApp Archivováno 6. 2. 2010 na Wayback Machine
- HP StorOnce od Hewlett-Packard
- Softwarová deduplikace Acronis® Backup & Recovery™ 10 Deduplication
- Případová studie řešení CommVault Simpana s deduplikačním a archivním modulem, Texaská technická universita
- Studie návratnosti investice do deduplikační VTL od Silverton Consulting, Inc.
- Deduplikace v prostředí zálohování VMware[nedostupný zdroj]