
Publikované pred 2 mesiacmi: 07.03.2013 / Redakcia Infoware, čítaní: 1504
Deduplikácia dát je metóda eliminujúca ukladanie duplicitných dát. Funguje tak, že z identických dát sa uloží iba jedna kópia a všetky ostatné sa nahradia odkazmi na ňu. Deduplikácia je jednoduchá myšlienka, ktorá prináša obrovské úspory.
Nie je prekvapujúce, že v súvislosti so súčasným explozívnym rastom dát plánuje tento veľmi perspektívny a efektívny nástroj zaviesť mnoho podnikov v čo najkratšom období. Vďaka deduplikácii dokážu ušetriť veľké množstvo diskovej kapacity a dosiahnuť tak nižšie kapitálové výdavky a nižšie operatívne náklady na IT infraštruktúru a jej správu.
Príklad deduplikácie zálohovania súborového servera
Uveďme si veľmi zjednodušený názorný príklad: Povedzme, že 500 ľudí dostane celopodnikový e-mail s prílohou veľkosti 1 MB. V prípade, že si ho každý príjemca uloží lokálne, príloha bude zreplikovaná 500-krát na osobných počítačoch v sieti. Počas zálohovania by potom systém bez deduplikácie dát uložil danú prílohu 500-krát, čo znamená, že by zabrala o 499 MB viac priestoru v zálohách, ako je nevyhnutné.
Mnohonásobné ukladanie dát je veľmi drahé a neefektívne. Naproti tomu pri deduplikácii dát sa zálohuje iba jedna inštancia dát z danej prílohy a zvyšných 499 sa nahradí odkazmi na túto jedinú kópiu. Tento rozdiel uložených dát - 499 MB bez deduplikácie a 1 MB s deduplikáciou - je dosiahnutý len pri zálohovaní jedného firemného e-mailu. Deduplikácia však funguje aj na úrovni blokov.
Ak sa vykoná zmena pôvodného súboru, pri deduplikácii sa uložia iba tie bloky dát, ktoré boli pozmenené (blok má zvyčajne veľmi malý objem - medzi 2 a 10 kilobajtmi dát). Konkrétne to znamená, že ak sa zmenil názov 1 MB súboru, pri deduplikácii dát sa uloží iba nový názov (zvyčajne v dátovom bloku s objemom 4 KB) s odkazmi na prvú zálohu daného súboru, takže nová záloha bude mať len 4 KB nových dát.
Samozrejme, veľmi dôležité je, aké dáta deduplikujeme. Nie pri všetkých dátach dokážeme dosiahnuť taký vysoký deduplikačný pomer, ako sme uviedli v príklade. V tabuľke vidíme príklad deduplikácie zálohovania súborového servera, kde firma dokáže ušetriť niekoľko tisíc gigabajtov priestoru.
V súčasnosti existuje niekoľko rôznych deduplikačných technológií. Líšia sa najmä zameraním na cieľovú skupinu zákazníkov a zariadením, na ktorom sú prevádzkované. Ak sa rozhliadneme po trhu, zistime, že sú dostupné technológie vhodné na nasadenie len v prostredí malých zákazníkov či na úrovni pobočiek a potom špecializované technológie, vhodnejšie pre veľké dátové centrá s objemom dát v stovkách TB až PB.
Z iného uhla pohľadu vidíme deduplikačné technológie v podobe softvéru nasadzovaného na koncové zariadenia alebo technológie využívajúce špecializovaný hardvér. Deduplikácia môže prebiehať na strane servera (source-based) alebo na strane ukladacieho a zálohovacieho zariadenia (target-based). Dedupli- kácia môže nastávať in-line, ako dáta prichádzajú, alebo post-process, teda až po zapísaní na disk.
Spoločnosti, ktoré zvažujú implementáciu deduplikačného riešenia, sa musia zorientovať v širokom portfóliu technológií. Rôzni dodávatelia používajú veľmi odlišné spôsoby deduplikácie. Tieto metódy môžu mať dosah na celkový výkon a využitie úložných systémov, zálohovacieho okna, ako aj na celý životný cyklus dát.
Preto odporúčame: vždy si spravte Proof of Concept alebo test deduplikácie a zistite merateľné výsledky. Zamyslite sa nad životným cyklom dát a zistite, kde má deduplikácia najväčší efekt. Zistite, aké benefity môže priniesť deduplikácia pre biznis spoločnosti.
Miroslav Franek
Storage & Critical servers
Business Unit Manager, HP
Zdroj: IW 12/2012