Дедуплікація даних в Windows Server 2012.
Продовжуємо розкопувати нові фічі Windows Server 2012. Сьогодні мова піде про технології дедуплікаціі даних (data deduplication). У загальному випадку дедуплікація - це пошук і видалення дубльованих даних. Знайдені копії даних видаляються і замінюються посиланнями на оригінал, що дозволяє зберігати тільки унікальний контент і вивільняє дисковий простір.Мета дедуплікаціі полягає в тому, щоб розмістити більшу кількість даних на меншому просторі.
Опис
Дедуплікація буває різна - на рівні файлів, блоків даних і навіть на битовом рівні. У Windows Server 2012 використовується блокова дедуплікація. Файли розбиваються на невеликі блоки різного розміру (32-128 КБ), визначаються дублюючі блоки і зберігається одна копія кожного блоку.Надлишкові копії блоку замінюються посиланнями на цю єдину копію. Блоки організуються в файли-контейнери, які можуть стискатися для подальшої оптимізації використання простору, і поміщаються в сховище блоків.
Для прикладу припустимо, у нас є два файли - File1 і File2.У початковому стані вони містять метадані (ім'я файлу, атрибути і т.п.) і самі дані.
Після дедуплікаціі дані з File1 і File2 видаляються і замінюються заглушками, що вказують на відповідні блоки даних, що зберігаються в загальному сховищі блоків. Так як блоки A, B і C однакові для обох файлів, вони зберігаються в єдиній копії, що знижує обсяг дискового простору, необхідний для зберігання обох файлів.
Під час доступу до одного з файлів відповідні блоки збираються разом. При цьому користувач або додаток працюють з файлом як і раніше, не підозрюючи про те, що файл був підданий перетворенням. Це дозволяє застосовувати Дедуплікація, не турбуючись про її вплив на поведінку додатків або доступ користувачів до файлу.
Таким чином, після включення дедуплікаціі томи і оптимізації даних том містить:
• Оптимізовані файли (файли точок повторного аналізу) які містять покажчики на відповідні блоки даних в сховищі блоків, необхідні для побудови вихідного файлу;
• Місце блоків (дані оптимізованих файлів);
• неоптимізованими файли (т .е. пропущені файли, наприклад файли стану системи, зашифровані файли, файли з додатковими атрибутами або файли розміром менше 32 КБ);
Планування
Дедуплікація може значно знизити споживану дисковий простір (на 50 -90% і більше), але тільки при правильному плануванні.Тому при виборі об'єкта для дедуплікаціі слід враховувати деякі моменти.
Тип даних
Ефективність дедуплікаціі дуже сильно залежить від типу даних. Так мультимедійні файли (фотографії, музика, відео) практично не містять повторюваних даних, тому їх дедуплікація не дасть велику економію.У той же час файли віртуальних машин (VHD) чудово дедупліціруются і на них економія може становити до 95%. З цієї причини перед включенням дедуплікаціі рекомендується виконати попередню оцінку даних на предмет дедупліціруемості