Hlavní rubriky: Informační systémy, Mobilní technologie, Datová centra, Sítě, IT bezpečnost, Software, Hardware, Zkušenosti a názory, Speciály

Deduplikace dat: Co byste rozhodně měli vědět

K duplikaci dat uchází často a na mnoha místech – ať už jde o e-mail zaslaný na desítky či stovky adres, nebo třeba o dokument, který je mnohokrát uložen v mnoha velmi si podobných nebo dokonce zcela stejných podobách. Takzvaná deduplikace dat, díky níž mohou být stejná data ukládána – nebo i přenášena - pouze jednou, může tedy přinést nemalé úspory a zefektivnění práce s daty. V praxi se ukazuje, že pokud se data deduplikují, dochází běžně ke snížení jejich objemu v poměru 1:10 a více, výjimkou není ani poměr 1:40.

Jedním z možných řešení deduplikace je specializované deduplikační zařízení. Foto: IBMJak už bylo zmíněno v úvodu, k duplikaci dat dochází na řadě míst IT infrastruktury. Typickým příkladem jsou e-mailové servery, které při přijetí desítek či stovek kopií jednoho e-mailu mnohdy prostě jen vytvoří příslušný počet jejich kopií v úložném systému. Podobně to platí třeba i pro dokumenty uložené ve sdílených úložištích (o těch lokálních ani nemluvě), ale třeba i pro diskové obrazy virtuálních serverů či desktopů.

V některých výše uvedených případech sice jsou využívány postupy, při nichž dochází k deduplikaci dat – a stejná data jsou uložena pouze jednou, ale zatím jde spíše o výjimku, než o pravidlo. Deduplikace na úrovni aplikací, takzvaná živá deduplikace, může navíc znamenat přílišný nárůst vytížení příslušného serveru a nese s sebou i jednu další nepříjemnost: Pokud se má s deduplikovanými daty pracovat i mimo primární systém, musejí se stejně mimo něj přenést v původní podobě.

Zbytečně duplikovaná data zabírají místo jak na discích, tak poté v zálohách (ať už jsou realizovány technicky jakkoli). Dochází ke zbytečně objemným přenosům, prodlužuje se doba zálohování, systémy pro ukládání dat spotřebují více elektrické energie – a je třeba pořizovat systémy s vyšší kapacitou. Zvyšují se tak nejen náklady, ale náročnější je i řada procesů nad uloženými daty, například jejich obnova ze záloh nebo prohledávání.

Jak deduplikace dat funguje

Při deduplikaci dat je pochopitelně nejprve třeba identifikovat duplicity, a to na různých úrovních – typicky souborů nebo určitých bloků dat. Při nejjednodušším přístupu je za duplicitu považována jen situace, kdy jsou dva soubory zcela identické, a to včetně názvu. Pokročilejší řešení zvládnou i různě nazvané soubory se shodným obsahem nebo soubory, které mají shodnou pouze část dat.

Technicky se při hledání duplicit berou bloky dat, počítá se jejich unikátní hash, ten se ukládá a porovnává se s existujícími hashi – a rovněž s ním jsou pak porovnávány následující spočtené hashe. Je-li nalezena shoda, na místo duplicitních dat je uložena jen malá značka, podle které systém ví, jaký původní blok dat sem při jejich znovupoužití umístit.

A jak to vypadá v praxi? Pokud například e-mailem přišla 50krát příloha dokumentu 50MB prezentace, máme tu 2,5 GB dat, ze kterých se po deduplikaci může ukládat nebo zálohovat jen o něco více než 50 MB – původní příloha a potřebná režijní data. A to je pouze jeden e-mail. Ukládání a zálohování denních nebo týdenních dat může bez deduplikace znamenat nutnost ukládat a přenášet desítky i stovky gigabajtů navíc i v relativně malé organizaci. To znamená zbytečnou zátěž pro úložné systémy i pro síťovou infrastrukturu.

Výhody deduplikace

Zmenšení objemu dat přináší řadu výhod. Zjevná je úspora nákladů vyplývající z faktu, že se do stávajících systémů vejde více dat, tudíž je není nutno tak rychle rozšiřovat. To v praxi navíc mnohdy znamená, že lze více dat nechat v systémech, z nichž jsou rychleji dostupná. Nebo při obnovování dat po výpadku lze provést tuto obnovu díky menšímu objemu dat rychleji. Úspor lze rovněž dosáhnout v nákladech na elektrickou energii.

Deduplikovaná data lze rovněž rychleji zálohovat, protože se zálohuje menší objem dat. To nepochybně ocení všichni ti, kteří zálohují velké objemy dat a mají problémy se vejít do zálohovacích oken. Pokud je zálohováno přes WAN, případně jsou přes WAN synchronizovány geograficky vzdálené systémy, může rozdíl mezi duplikovanými a deduplikovanými daty znamenat významnou finanční úsporu za další komunikační spoj.

Deduplikace na úrovni souborů, bitů nebo bloků

V praxi jsou používány tři úrovně deduplikace: na úrovni bitů, bloků nebo souborů. V případě souborů jsou porovnávány soubory jako celek a pokud se liší, byť jen minimálně, nejsou považovány za stejné. Tento přístup není příliš efektivní.

Uvedený problémy deduplikace na úrovni souborů řeší další dva přístupy, a to deduplikace na úrovni bloků a bitů. Tím, že jsou porovnávány menší kusy dat, zvyšuje se pravděpodobnost, že se najde duplicita. Pokud se změní jen část souboru, v rámci deduplikace se de facto neuloží znovu shodné části, ale právě pouze ta změněná.

Uvedené postupy jsou tedy efektivnější, současně ale vytvářejí větší objemy indexů; existuje určitá spodní hranice bloků dat, pod níž se už deduplikace nevyplatí. Přiliš velké indexy rovněž mohou znamenat zbytečné zdržení při uvádění dat do původního stavu, a to kvůli prohledávání databáze indexů. Nicméně při správně pojaté deduplikaci jednoznačně převáží zrychlení dané mimo jiné tím, že lze data ukládat na rychleji přístupné systémy.

Deduplikace u zdroje, nebo v cíli?

Liší se také místa, kde lze deduplikaci provádět. Podle toho je rozlišována deduplikace u zdroje, v cíli a po cestě (inline). Deduplikační engine běží v prvním případě přímo nad úložištěm produkčního systému, ve druhém případě v záložním systému a u inline pak mezi oběma systémy – typicky ve specializovaných zařízeních (appliance) umístěných na cestě mezi uvedenými systémy.

Deduplikace u zdroje analyzuje soubory na originálních serverech a vytváří hashe. Deduplikační engine běží na serveru, například jako součást zálohovacího softwaru. Výhodou je, že se pak po síti přenášejí již deduplikovaná data. Nicméně je třeba počítat s tím, že deduplikace spotřebuje určitý výkon – závislý na řadě faktorů, od typu deduplikace po charakteristiky dat, takže ji lze takto realizovat pouze tehdy, pokud zvýšení zátěže produkčního systému neznamená problém. Navíc je tato deduplikace ohraničená pouze na jeden systém a pokud se tedy stejná data nacházejí na více systémech, nedojde k deduplikaci napříč systémy.

Deduplikace u cíle má tu výhodu, že se nijak neprojeví na zdrojovém serveru. Deduplikace je realizována na cílovém serveru až v okamžiku, kdy je záloha provedena. Nevýhodou ovšem je, že jsou po síti přenášena kompletní data a cílový server musí mít dostatečný úložný prostor pro jejich přijetí – a provedení deduplikace nad nimi. Výhodu je, že naopak není třeba žádného updatu zálohovacího softwaru na zdrojových serverech.

Při inline deduplikaci se pak provádí deduplikace mezi zmíněnými systémy. Deduplikační zařízení (appliances) přitom mohou být umístěna u zdrojových serverů, nebo u těch cílových. Výhodou je, že není třeba provádět žádné zásahy u zdrojových ani cílových serverů, nevýhodou může být vyšší pořizovací cena, případně fakt, že deduplikační zařízení, které provádí deduplikaci při přenosu dat, se může stát úzkým hrdlem přenosového systému.

Situace v technologiích deduplikace dat se stále vyvíjí, podobně, jako většina oblastí dnešního IT. Stav na hřišti se mění například s tím, jak roste výkon serverů i přenosové kapacity sítí. Svou roli zde navíc čím dál tím více hrají i otázky cloudových úložišť, kde se velmi vyplatí mj. omezení objemu přenášených dat.

(7. 10. 2013 | redakce2)

Tento článek je součástí speciálu:

Řešení pro ukládání dat: Využívejte výhod SSD i deduplikace

Objem informací uložených na celém světě se podle analytiků společnosti IDC během každých 24 měsíců zdvojnásobí, což s sebou nese...

Partneři speciálu:

Komentáře, názory a rady

Zatím sem nikdo nevložil žádný komentář. Buďte první...

>>> Číst a vkládat komentáře <<<