Neduplikujte, ale deduplikujte

De­dup­li­ká­cia dát je me­tó­da eli­mi­nu­jú­ca uk­la­da­nie dup­li­cit­ných dát. Fun­gu­je tak, že z iden­tic­kých dát sa ulo­ží iba jed­na kó­pia a všet­ky os­tat­né sa nah­ra­dia od­kaz­mi na ňu. De­dup­li­ká­cia je jed­no­du­chá my­šlien­ka, kto­rá pri­ná­ša ob­rov­ské ús­po­ry. 

DeDup.png

Nie je prek­va­pu­jú­ce, že v sú­vis­los­ti so sú­čas­ným explo­zív­nym ras­tom dát plá­nu­je ten­to veľ­mi per­spek­tív­ny a efek­tív­ny nás­troj za­viesť mno­ho pod­ni­kov v čo naj­krat­šom ob­do­bí. Vďa­ka de­dup­li­ká­cii do­ká­žu ušet­riť veľ­ké množ­stvo dis­ko­vej ka­pa­ci­ty a do­siah­nuť tak niž­šie ka­pi­tá­lo­vé vý­dav­ky a niž­šie ope­ra­tív­ne nák­la­dy na IT infra­štruk­tú­ru a jej sprá­vu.

deduplikacia_HP.jpg

Prík­lad de­dup­li­ká­cie zá­lo­ho­va­nia sú­bo­ro­vé­ho server­a

Uveď­me si veľ­mi zjed­no­du­še­ný ná­zor­ný prík­lad: Po­vedz­me, že 500 ľu­dí dos­ta­ne ce­lo­pod­ni­ko­vý e-mail s príl­ohou veľ­kos­ti 1 MB. V prí­pa­de, že si ho kaž­dý prí­jem­ca ulo­ží lo­kál­ne, príl­oha bu­de zrep­li­ko­va­ná 500-krát na osob­ných po­čí­ta­čoch v sie­ti. Po­čas zá­lo­ho­va­nia by po­tom sys­tém bez de­dup­li­ká­cie dát ulo­žil da­nú príl­ohu 500-krát, čo zna­me­ná, že by za­bra­la o 499 MB viac pries­to­ru v zá­lo­hách, ako je ne­vyh­nut­né.

Mno­ho­ná­sob­né uk­la­da­nie dát je veľ­mi dra­hé a nee­fek­tív­ne. Nap­ro­ti to­mu pri de­dup­li­ká­cii dát sa zá­lo­hu­je iba jed­na in­štan­cia dát z da­nej príl­ohy a zvyš­ných 499 sa nah­ra­dí od­kaz­mi na tú­to je­di­nú kó­piu. Ten­to roz­diel ulo­že­ných dát - 499 MB bez de­dup­li­ká­cie a 1 MB s de­dup­li­ká­ciou - je do­siah­nu­tý len pri zá­lo­ho­va­ní jed­né­ho fi­rem­né­ho e-mai­lu. De­dup­li­ká­cia však fun­gu­je aj na úrov­ni blo­kov.

Ak sa vy­ko­ná zme­na pô­vod­né­ho sú­bo­ru, pri de­dup­li­ká­cii sa ulo­žia iba tie blo­ky dát, kto­ré bo­li poz­me­ne­né (blok má zvy­čaj­ne veľ­mi ma­lý ob­jem - me­dzi 2 a 10 ki­lo­baj­tmi dát). Kon­krét­ne to zna­me­ná, že ak sa zme­nil ná­zov 1 MB sú­bo­ru, pri de­dup­li­ká­cii dát sa ulo­ží iba no­vý ná­zov (zvy­čaj­ne v dá­to­vom blo­ku s ob­je­mom 4 KB) s od­kaz­mi na pr­vú zá­lo­hu da­né­ho sú­bo­ru, tak­že no­vá zá­lo­ha bu­de mať len 4 KB no­vých dát.

Sa­moz­rej­me, veľ­mi dô­le­ži­té je, aké dá­ta de­dup­li­ku­je­me. Nie pri všet­kých dá­tach do­ká­že­me do­siah­nuť ta­ký vy­so­ký de­dup­li­kač­ný po­mer, ako sme uvied­li v prík­la­de. V ta­buľ­ke vi­dí­me prík­lad de­dup­li­ká­cie zá­lo­ho­va­nia sú­bo­ro­vé­ho server­a, kde fir­ma do­ká­že ušet­riť nie­koľ­ko ti­síc gi­ga­baj­tov pries­to­ru.

V sú­čas­nos­ti exis­tu­je nie­koľ­ko rôz­nych de­dup­li­kač­ných tech­no­ló­gií. Lí­šia sa naj­mä za­me­ra­ním na cie­ľo­vú sku­pi­nu zá­kaz­ní­kov a za­ria­de­ním, na kto­rom sú pre­vádz­ko­va­né. Ak sa roz­hliad­ne­me po tr­hu, zis­ti­me, že sú dos­tup­né tech­no­ló­gie vhod­né na na­sa­de­nie len v pros­tre­dí ma­lých zá­kaz­ní­kov či na úrov­ni po­bo­čiek a po­tom špe­cia­li­zo­va­né tech­no­ló­gie, vhod­nej­šie pre veľ­ké dá­to­vé cen­trá s ob­je­mom dát v stov­kách TB až PB.

Z iné­ho uh­la poh­ľa­du vi­dí­me de­dup­li­kač­né tech­no­ló­gie v po­do­be sof­tvé­ru na­sa­dzo­va­né­ho na kon­co­vé za­ria­de­nia ale­bo tech­no­ló­gie vy­uží­va­jú­ce špe­cia­li­zo­va­ný har­dvér. De­dup­li­ká­cia mô­že pre­bie­hať na stra­ne server­a (sour­ce-ba­sed) ale­bo na stra­ne uk­la­da­cie­ho a zá­lo­ho­va­cie­ho za­ria­de­nia (tar­get-ba­sed). De­dup­li- ká­cia mô­že nas­tá­vať in-li­ne, ako dá­ta pri­chá­dza­jú, ale­bo post-pro­cess, te­da až po za­pí­sa­ní na disk.

Spo­loč­nos­ti, kto­ré zva­žu­jú im­ple­men­tá­ciu de­dup­li­kač­né­ho rie­še­nia, sa mu­sia zo­rien­to­vať v ši­ro­kom por­tfó­liu tech­no­ló­gií. Rôz­ni do­dá­va­te­lia pou­ží­va­jú veľ­mi od­liš­né spô­so­by de­dup­li­ká­cie. Tie­to me­tó­dy mô­žu mať do­sah na cel­ko­vý vý­kon a vy­uži­tie úlož­ných sys­té­mov, zá­lo­ho­va­cie­ho ok­na, ako aj na ce­lý ži­vot­ný cyk­lus dát.

Pre­to od­po­rú­ča­me: vždy si sprav­te Proof of Con­cept ale­bo test de­dup­li­ká­cie a zis­ti­te me­ra­teľ­né vý­sled­ky. Za­mys­li­te sa nad ži­vot­ným cyk­lom dát a zis­ti­te, kde má de­dup­li­ká­cia naj­väč­ší efekt. Zis­ti­te, aké be­ne­fi­ty mô­že pri­niesť de­dup­li­ká­cia pre biz­nis spo­loč­nos­ti.

HP_Franek_03.jpg

Mi­ros­lav Fra­nek
Sto­ra­ge & Cri­ti­cal servers
Bu­si­ness Unit Ma­na­ger, HP

Zdroj: IW 12/2012



Ohodnoťte článok:
   
 

24 hodín

týždeň

mesiac

Najnovšie články

Roz­ho­vor: Chcem do­kon­čiť pro­jek­ty OPIS, aby z nich ľu­dia ma­li čo naj­väč­ší úži­tok
Norbert Molnár má praktické skúseností najmä s poskytovaním konzultácií v oblasti informačných technológií a poradenstvom pri projektoch financovaných európskym spoločenstvom. čítať »
 
Anti­spa­mo­vé rie­še­nia v pros­tre­dí pre­vádz­ky WWW server­ov
Čistenie prichádzajúcej pošty od spamu je odveký problém administrátorov, ktorý sa však väčšinou darí pomerne obstojne riešiť. čítať »
 
Ke­dy na tvor­bu webu vy­užiť služ­by štu­den­ta a ke­dy fir­mu
Časy, keď vytvoriť kvalitný a profesionálny web vedelo len pár vyvolených, sú nenávratne preč. Dnes má záujemca o vytvorenie webu v podstate nekonečné množstvo spôsobov, ako takýto projekt zrealizovať. čítať »
 
Pries­kum: Ná­kup tech­no­ló­gií v pod­ni­koch
V priebehu augusta 2014 uskutočnila redakcia Infoware v spolupráci so spoločnosťou GRENKELEASING s.r.o., prieskum o nákupe technológií v podnikoch. čítať »
 
10 pra­vi­diel na ochra­nu mo­bil­ných za­ria­de­ní vo fir­mách
Každé zabezpečenie je len také dobré, aký dobrý je jeho najslabší článok. V rámci podnikovej informačnej architektúry tento fakt platí tak pre mobilné zariadenia vlastnené firmou, ako aj pre zariadenia vlastnené zamestnancami. čítať »
 
 
 
  Zdieľaj cez Facebook Zdieľaj cez Google+ Zdieľaj cez Twitter Zdieľaj cez LinkedIn Správy z RSS Správy na smartfóne Správy cez newsletter