Neduplikujte, ale deduplikujte

De­dup­li­ká­cia dát je me­tó­da eli­mi­nu­jú­ca uk­la­da­nie dup­li­cit­ných dát. Fun­gu­je tak, že z iden­tic­kých dát sa ulo­ží iba jed­na kó­pia a všet­ky os­tat­né sa nah­ra­dia od­kaz­mi na ňu. De­dup­li­ká­cia je jed­no­du­chá my­šlien­ka, kto­rá pri­ná­ša ob­rov­ské ús­po­ry. 

DeDup.png

Nie je prek­va­pu­jú­ce, že v sú­vis­los­ti so sú­čas­ným explo­zív­nym ras­tom dát plá­nu­je ten­to veľ­mi per­spek­tív­ny a efek­tív­ny nás­troj za­viesť mno­ho pod­ni­kov v čo naj­krat­šom ob­do­bí. Vďa­ka de­dup­li­ká­cii do­ká­žu ušet­riť veľ­ké množ­stvo dis­ko­vej ka­pa­ci­ty a do­siah­nuť tak niž­šie ka­pi­tá­lo­vé vý­dav­ky a niž­šie ope­ra­tív­ne nák­la­dy na IT infra­štruk­tú­ru a jej sprá­vu.

deduplikacia_HP.jpg

Prík­lad de­dup­li­ká­cie zá­lo­ho­va­nia sú­bo­ro­vé­ho server­a

Uveď­me si veľ­mi zjed­no­du­še­ný ná­zor­ný prík­lad: Po­vedz­me, že 500 ľu­dí dos­ta­ne ce­lo­pod­ni­ko­vý e-mail s príl­ohou veľ­kos­ti 1 MB. V prí­pa­de, že si ho kaž­dý prí­jem­ca ulo­ží lo­kál­ne, príl­oha bu­de zrep­li­ko­va­ná 500-krát na osob­ných po­čí­ta­čoch v sie­ti. Po­čas zá­lo­ho­va­nia by po­tom sys­tém bez de­dup­li­ká­cie dát ulo­žil da­nú príl­ohu 500-krát, čo zna­me­ná, že by za­bra­la o 499 MB viac pries­to­ru v zá­lo­hách, ako je ne­vyh­nut­né.

Mno­ho­ná­sob­né uk­la­da­nie dát je veľ­mi dra­hé a nee­fek­tív­ne. Nap­ro­ti to­mu pri de­dup­li­ká­cii dát sa zá­lo­hu­je iba jed­na in­štan­cia dát z da­nej príl­ohy a zvyš­ných 499 sa nah­ra­dí od­kaz­mi na tú­to je­di­nú kó­piu. Ten­to roz­diel ulo­že­ných dát - 499 MB bez de­dup­li­ká­cie a 1 MB s de­dup­li­ká­ciou - je do­siah­nu­tý len pri zá­lo­ho­va­ní jed­né­ho fi­rem­né­ho e-mai­lu. De­dup­li­ká­cia však fun­gu­je aj na úrov­ni blo­kov.

Ak sa vy­ko­ná zme­na pô­vod­né­ho sú­bo­ru, pri de­dup­li­ká­cii sa ulo­žia iba tie blo­ky dát, kto­ré bo­li poz­me­ne­né (blok má zvy­čaj­ne veľ­mi ma­lý ob­jem - me­dzi 2 a 10 ki­lo­baj­tmi dát). Kon­krét­ne to zna­me­ná, že ak sa zme­nil ná­zov 1 MB sú­bo­ru, pri de­dup­li­ká­cii dát sa ulo­ží iba no­vý ná­zov (zvy­čaj­ne v dá­to­vom blo­ku s ob­je­mom 4 KB) s od­kaz­mi na pr­vú zá­lo­hu da­né­ho sú­bo­ru, tak­že no­vá zá­lo­ha bu­de mať len 4 KB no­vých dát.

Sa­moz­rej­me, veľ­mi dô­le­ži­té je, aké dá­ta de­dup­li­ku­je­me. Nie pri všet­kých dá­tach do­ká­že­me do­siah­nuť ta­ký vy­so­ký de­dup­li­kač­ný po­mer, ako sme uvied­li v prík­la­de. V ta­buľ­ke vi­dí­me prík­lad de­dup­li­ká­cie zá­lo­ho­va­nia sú­bo­ro­vé­ho server­a, kde fir­ma do­ká­že ušet­riť nie­koľ­ko ti­síc gi­ga­baj­tov pries­to­ru.

V sú­čas­nos­ti exis­tu­je nie­koľ­ko rôz­nych de­dup­li­kač­ných tech­no­ló­gií. Lí­šia sa naj­mä za­me­ra­ním na cie­ľo­vú sku­pi­nu zá­kaz­ní­kov a za­ria­de­ním, na kto­rom sú pre­vádz­ko­va­né. Ak sa roz­hliad­ne­me po tr­hu, zis­ti­me, že sú dos­tup­né tech­no­ló­gie vhod­né na na­sa­de­nie len v pros­tre­dí ma­lých zá­kaz­ní­kov či na úrov­ni po­bo­čiek a po­tom špe­cia­li­zo­va­né tech­no­ló­gie, vhod­nej­šie pre veľ­ké dá­to­vé cen­trá s ob­je­mom dát v stov­kách TB až PB.

Z iné­ho uh­la poh­ľa­du vi­dí­me de­dup­li­kač­né tech­no­ló­gie v po­do­be sof­tvé­ru na­sa­dzo­va­né­ho na kon­co­vé za­ria­de­nia ale­bo tech­no­ló­gie vy­uží­va­jú­ce špe­cia­li­zo­va­ný har­dvér. De­dup­li­ká­cia mô­že pre­bie­hať na stra­ne server­a (sour­ce-ba­sed) ale­bo na stra­ne uk­la­da­cie­ho a zá­lo­ho­va­cie­ho za­ria­de­nia (tar­get-ba­sed). De­dup­li- ká­cia mô­že nas­tá­vať in-li­ne, ako dá­ta pri­chá­dza­jú, ale­bo post-pro­cess, te­da až po za­pí­sa­ní na disk.

Spo­loč­nos­ti, kto­ré zva­žu­jú im­ple­men­tá­ciu de­dup­li­kač­né­ho rie­še­nia, sa mu­sia zo­rien­to­vať v ši­ro­kom por­tfó­liu tech­no­ló­gií. Rôz­ni do­dá­va­te­lia pou­ží­va­jú veľ­mi od­liš­né spô­so­by de­dup­li­ká­cie. Tie­to me­tó­dy mô­žu mať do­sah na cel­ko­vý vý­kon a vy­uži­tie úlož­ných sys­té­mov, zá­lo­ho­va­cie­ho ok­na, ako aj na ce­lý ži­vot­ný cyk­lus dát.

Pre­to od­po­rú­ča­me: vždy si sprav­te Proof of Con­cept ale­bo test de­dup­li­ká­cie a zis­ti­te me­ra­teľ­né vý­sled­ky. Za­mys­li­te sa nad ži­vot­ným cyk­lom dát a zis­ti­te, kde má de­dup­li­ká­cia naj­väč­ší efekt. Zis­ti­te, aké be­ne­fi­ty mô­že pri­niesť de­dup­li­ká­cia pre biz­nis spo­loč­nos­ti.

HP_Franek_03.jpg

Mi­ros­lav Fra­nek
Sto­ra­ge & Cri­ti­cal servers
Bu­si­ness Unit Ma­na­ger, HP

Zdroj: IW 12/2012Ohodnoťte článok:
   
 

24 hodín

týždeň

mesiac

Najnovšie články

Ako správ­ne viesť pro­jek­ty v ban­kov­níc­tve
Dobré zadanie je prvý predpoklad úspechu projektu. Kvalitné zadanie by malo obsahovať schémy či obrázky, z ktorých bude jasný biznisový proces. čítať »
 
Pe­net­rač­né tes­to­va­nie: vy­uži­te etic­kých hac­ke­rov pre si­mu­lo­va­ný útok na váš sys­tém
S termínom penetračné testovanie (skrátene pentest) sa stretáva stále viac ľudí ochraňujúcich informačné aktíva. Ide o simulovaný hackerský útok na systém, počas ktorého sa metodicky vykonáva široká paleta testov na jednotlivé súčasti systému, akoby ich uskutočňoval reálny útočník. čítať »
 
Blog: Sme ot­rok­mi al­go­rit­mov?
Server idnes.cz zverejnil rozhovor s expertom na nové médiá Josefom Šlerkom, v ktorom varuje pred tým, že sa môžeme stať otrokmi algoritmov, ktorým nebudeme rozumieť. čítať »
 
Preč s „ná­kaz­li­vý­mi" údaj­mi. Na­koľ­ko je kva­lit­ný graf, ak bol vy­tvo­re­ný z chyb­ných úda­jov?
Kvalita údajov je funkcia presnosti, jedinečnosti, úplnosti a množstva. Rovnako ako v štatistike platí, čím je väčšia vzorka relevantných respondentov, tým presnejší bude výsledok prieskumu. čítať »
 
Rok 2013 – rok, keď skon­čil prie­my­sel SEO? Nao­zaj?
Rok 2013 bol z hľadiska internetového marketingu revolučný v mnohých oblastiach. Mnohí (najmä zahraniční) blogeri ho vyhlásili za rok, keď „SEO zomrelo". čítať »
 
 
 
  Zdieľaj cez Facebook Zdieľaj cez Google+ Zdieľaj cez Twitter Zdieľaj cez LinkedIn Správy z RSS Správy na smartfóne Správy cez newsletter