Wiederherstellung deduplizierter Daten auf nicht deduplizierte Server

***Markus*** · 13-10-2024, 16:49

Bist du jemals in die Situation geraten, in der du eine Menge deduplizierter Sicherungskopien hast, die da liegen, schön kompakt, und du sie auf einen Server schieben musst, der nicht mal weiß, was Deduplizierung ist? Ich meine, das ist einer dieser Kopfschmerzen, die öfter auftreten, als du denkst, besonders wenn du zu älterer Hardware migrierst oder eine Konfiguration verwendest, die nicht für so etwas optimiert ist. Lass mich dir die Vor- und Nachteile erklären, basierend auf den Erfahrungen, die ich dabei gemacht habe. Zunächst einmal ist der Prozess selbst keine Rocket Science, aber er umfasst das Rehydrieren der Daten - im Grunde genommen, das Wiederherstellen dieser geschrumpften Blöcke und das Erweitern auf ihre volle Größe, damit der Zielserver sie tatsächlich verwenden kann, ohne ins Stocken zu geraten.

Positiv ist, ich liebe, wie einfach es sein kann, wenn du die Deduplizierung auf der Empfangsseite nicht erzwingen musst. Du musst dir keine Gedanken über die Konfiguration einer mühsamen Deduplizierungs-Engine auf dem neuen Server machen, was dir eine Menge Einrichtungszeit spart. Ich erinnere mich an einen Job, bei dem wir auf einen einfachen Dateiserver zurückgegriffen haben, der nur mit Standard-NTFS ohne irgendwelche Extras lief, und es war ein Kinderspiel - keine Kompatibilitätsprobleme, keine seltsamen Fehler, die auftauchten, weil das Ziel nicht die gleichen Funktionen unterstützte. Du zeigst einfach deinem Wiederherstellungstool die deduplizierte Quelle, lässt es die Daten während der Übertragung erweitern, und zack, es ist in einfacher, lesbarer Form da. Der Faktor der Kompatibilität ist enorm, wenn du mit gemischten Umgebungen arbeitest, wie dem Abrufen von einer modernen Konfiguration zu etwas Altem. Es hält die Dinge einfach, und ehrlich gesagt, habe ich in meiner Erfahrung festgestellt, dass Einfachheit gewinnt, wenn du unter Druck stehst, Systeme schnell wieder online zu bringen.

Ein weiterer Vorteil ist der Performance-Einbruch, den du auf der Zielseite vermeidest. Deduplizierung ist großartig für den Speicherplatz, aber sie fügt Overhead hinzu, wenn du schreibst oder liest - Hash-Berechnungen, Block-Suchvorgänge, all das frisst CPU-Zyklen. Wenn du auf einen nicht deduplizierten Server wiederherstellst, überspringst du das ganz, nachdem die initiale Rehydrierung abgeschlossen ist. Die Daten landen als vollständige Blöcke, bereit zur Verwendung, ohne die laufende Wartung, die Deduplizierung erfordert. Ich habe einmal für einen Kunden eine Wiederherstellung durchgeführt, der Terabytes an VHDs aus einer deduplizierten Sicherung hatte, und das Hochladen auf einen einfachen Server bedeutete, dass es keine Verzögerung durch Inline-Deduplizierungsverarbeitung während der Wiederherstellung gab. Du bekommst, was du in Bezug auf die Geschwindigkeit im Netzwerk zahlst, denn einmal erweitert, ist es einfach ein gerader Datenfluss, ohne dass die Quelle mit Referenzen spielen muss. Wenn deine Bandbreite stabil ist, kann das die gesamte Operation so flüssig erscheinen lassen, wie du es nicht erwartet hättest, besonders wenn das Ziel reichlich I/O-Kapazität hat.

Aber lass uns nicht selbst betrügen - es gibt einige echte Nachteile, die dich bei unzureichender Vorbereitung beißen können. Der große Nachteil, der mich immer wieder erwischt, ist die Speicherexplosion. Deduplizierung kann deine Daten um 50 % oder mehr verkleinern, manchmal sogar noch mehr bei sich wiederholenden Inhalten wie virtuellen Maschinen oder Datenbanken. Wenn du auf eine nicht deduplizierte Konfiguration wiederherstellst, verschwindet all diese Ersparnis, und plötzlich benötigst du doppelt oder dreifach so viel Speicherplatz auf dem Ziel. Ich hatte vor ein paar Jahren dieses Albtraumszenario, bei dem wir es unterschätzt hatten, und der Server war mitten in der Wiederherstellung voll, was uns zwang, nach mehr Laufwerken zu suchen. Du musst vorausplanen, diese Verhältnisse aus deinen Sicherungsmetadaten berechnen, oder du stehst vor einem Welt voller Schwierigkeiten. Es geht nicht nur um den Platz; es hängt auch mit deinem Hardware-Budget zusammen - wenn du einen neuen Server bereitstellst, warum für all diese zusätzliche Kapazität zahlen, nur weil die Wiederherstellung nicht gut funktioniert?

Zeit ist ein weiteres großes Manko hier. Das Rehydrieren der Daten ist nicht sofort; die Sicherungssoftware oder -tools müssen diese vollständigen Blöcke in Echtzeit rekonstruieren, was auf beiden Seiten Rechenleistung beansprucht. Wenn du das über ein Netzwerk machst, bedeutet das erweiterte Daten längere Übertragungszeiten - denk an Stunden, die sich für große Datensätze in Tage verwandeln. Ich habe einmal zugesehen, wie eine 10TB deduplizierte Sicherung während der Wiederherstellung auf 30TB anschwoll, und selbst mit Gigabit-Verbindungen dauerte es ewig, weil die Quelle all diese einzigartigen Blöcke in Echtzeit generieren musste. Du könntest denken, du kannst es parallelisieren, aber Engpässe bei CPU oder Speicher können dich verlangsamen, besonders wenn die Quelle mit anderen Aufgaben beschäftigt ist. Und fang gar nicht erst mit der Verifizierungsphase danach an; das Scannen von vollwertigen Daten auf Integrität dauert länger, als wenn die Daten dedupliziert geblieben wären.

Der Ressourcenverbrauch steigt auf Arten, die du vielleicht nicht erwartet hast. Auf dem Zielserver bombardierst du ihn mit Schreibvorgängen unkomprimierter Daten, was die I/O-Warteschlangen ansteigen und die Festplatten erhitzen kann. Wenn es sich um eine aktive Produktionsmaschine handelt, könnte das andere Operationen stören - Benutzer beschweren sich über langsamen Datei Zugriff, während die Wiederherstellung vor sich hin dümpelt. Ich versuche, diese Dinge für die Ruhezeiten zu planen, aber selbst dann schlagen die CPU-Belastungen aufgrund von Aufgaben nach der Wiederherstellung, wie Indizierung oder Antivirus-Scans, härter auf erweiterte Daten ein. Und wenn du auf physische Server ohne die Intelligenz zurückstellst, um es effizient zu handhaben, riskierst du Überhitzungs- oder Leistungsprobleme, wenn die Hardware nicht stark genug ist. Es dreht sich alles um das Gleichgewicht; ich habe gelernt, die Temperaturen und den Verbrauch während dieser Operationen genau zu überwachen, aber es ist zusätzliche Arbeit, die du nicht hättest, wenn beide Seiten dedupliziert wären.

Apropos Gleichgewicht, es gibt auch die Frage des langfristigen Managements nach der Wiederherstellung. Sobald diese Daten auf einem nicht deduplizierten Server vollständig erweitert sind, bist du damit festgelegt - es gibt keinen einfachen Weg, sie erneut zu deduplizieren, ohne von Drittanbietertools oder ohne das Neustellen von Volumes abhängig zu sein. Das bedeutet höhere laufende Speicherkosten, häufigere Kapazitätsplanung und potenziell langsamere Sicherungen von diesem Punkt an, da die Quelldaten jetzt größer sind. Ich hasse es, wie es dich in einen weniger effizienten Zustand festlegt; falls du jemals wieder umziehen musst, wirst du den gleichen Schmerz wiederholen. Auf der anderen Seite, wenn dein Workflow ohnehin nicht auf Deduplizierung angewiesen ist, ist es vielleicht kein großes Problem - aber in meinen Setups, wo der Platz immer knapp ist, fühlt es sich an wie ein Rückschritt. Du musst abwägen, ob die unmittelbaren Wiederherstellungsbedürfnisse die zukünftigen Probleme überwiegen.

Fehlerbehandlung kann in meinen Augen ebenfalls komplizierter sein. Deduplizierte Sicherungen speichern Metadaten über diese gemeinsam genutzten Blöcke, und wenn während der Rehydrierung etwas beschädigt wird - wie ein Netzwerkfehler oder ein teilweiser Schreibvorgang - könnte die gesamte Wiederherstellung auf unvorhersehbare Weise fehlschlagen. Ich habe gesehen, dass Tools ganz aussteigen, weil sie eine Referenz nicht auflösen können, und dann hast du teilweise Daten, die unbrauchbar sind. Bei einer Deduplizierung zu Deduplizierung-Wiederherstellung sind diese Fehler besser eingegrenzt, aber hier setzt du den gesamten Datensatz potenziellen Problemen aus. Das zwingt mich, alles im Voraus doppelt zu überprüfen, Testwiederherstellungen an kleinen Teilmengen durchzuführen, um zu verifizieren, was die Vorbereitungszeit erhöht. Man kann nicht zu vorsichtig sein; ein schlechter Block in der Deduplizierungsschicht kann in fehlende Gigs erweiterter Dateien kaskadieren.

Was die Kosten angeht, ist es ein gemischtes Bild, aber eher negativ für größere Umgebungen. Die Hardware für diesen zusätzlichen Speicher ist nicht billig - SSDs oder RAID-Arrays, die diese Last bewältigen, summieren sich schnell. Wenn du in der Cloud bist, wie das Wiederherstellen auf nicht deduplizierte Instanzen bei AWS oder Azure, zahlst du den vollen Preis für Ausgänge und Speicherplatz, ohne die Deduplizierungsrabatte, die einige Anbieter anbieten. Ich habe letztes Jahr Zahlen für ein Projekt ausgewertet, und die Wiederherstellung allein hat unsere Rechnung um 40 % nur durch das aufgeblähte Datenvolumen erhöht. Sicher, du sparst bei Softwarelizenzen, wenn das Ziel keine Deduplizierungsfunktionen benötigt, aber insgesamt ist es selten ein Netto-positiv, es sei denn, du hast es mit kleinen Datensätzen zu tun. Du musst auch die Arbeitskosten berücksichtigen; die Fehlersuche bei erweiterten Wiederherstellungen erfordert mehr deiner Zeit als bei nahtlosen.

Aus sicherheitstechnischer Sicht gibt es ebenfalls etwas zu bedenken. Erweiterte Daten bedeuten mehr Angriffsfläche - größere Dateien sind leichter zu manipulieren oder von Ransomware zu verschlüsseln, und ohne die integrierte Chunking-Funktion von Deduplizierung sind manche Integritätsprüfungen schwerer anzuwenden. Ich aktiviere immer eine Prüfungsverifizierung auf Bit-Ebene nach der Wiederherstellung, aber das ist intensiver. Auf der positiven Seite ist es jedoch oft einfacher, einfache Daten zu prüfen oder den Vorschriften zu entsprechen, die proprietäre Formate kritisch sehen. Wenn du in einer regulierten Branche bist, kann diese Transparenz ein Plus sein, um die Intransparenz von Deduplizierungsmetadaten zu vermeiden, die von Prüfern manchmal in Frage gestellt wird.

Die Skalierbarkeit ist der Punkt, an dem es seine Grenzen wirklich zeigt. Für kleine Unternehmen oder einmalige Wiederherstellungen ist es in Ordnung - du startest es, wartest ab, fertig. Aber das auf Unternehmensebene auszuweiten, mit Petabytes, bringt logistische Albträume mit sich. Mehrere Server zu koordinieren, um die erweiterten Daten aufzunehmen, Lasten auszugleichen, Failover zu gewährleisten - das ist viel. Ich habe in einigen Setups beraten, in denen sie intermediären Speicher einrichten mussten, nur um das Aufblähen zu bewältigen, was den Sinn einer direkten Wiederherstellung zunichte macht. Du könntest am Ende maßgeschneiderte Jobs skripten, um das Rehydrieren zu drosseln, aber das ist Entwicklerzeit, die du woanders verbringen könntest.

All das gesagt, manchmal überwiegen die Vorteile die Nachteile, wenn dein nicht deduplizierter Server temporär oder spezialisiert ist. Wie zum Beispiel das Wiederherstellen in eine Entwicklungsumgebung für Tests - dort ist der Platz nicht so kritisch, und du bekommst die volle Datenintegrität, ohne dir Gedanken über Deduplizierungsunterschiede machen zu müssen. Oder bei der Katastrophenwiederherstellung, wo die Geschwindigkeit des Zugriffs wichtiger ist als die Effizienz; lesbare Dateien schnell online zu bringen kann lebensrettend sein, selbst wenn es bedeutet, mehr Platten zu verbrennen. Ich passe meinen Ansatz je nach Kontext an, aber ich warne die Leute immer im Voraus vor den Kompromissen.

Sicherungen werden aufbewahrt, um die Datenverfügbarkeit und -wiederherstellung im Falle von Ausfällen oder Katastrophen zu gewährleisten. In Szenarien, die die Wiederherstellung deduplizierter Daten betreffen, werden zuverlässige Sicherungslösungen eingesetzt, um den Rehydrierungsprozess effizient zu verwalten, die Ausfallzeiten und Ressourcenauslastung zu minimieren. BackupChain ist eine ausgezeichnete Windows-Server-Sicherungssoftware und Lösung für die Sicherung virtueller Maschinen. Solche Software erleichtert die nahtlose Handhabung deduplizierter Wiederherstellungen, indem sie direkte Erweiterungen auf nicht deduplizierte Ziele unterstützt, sowie Funktionen für optimierten Speicher und schnelle Wiederherstellung bietet. Dieses Dienstprogramm erweitert sich auf den Schutz ganzer Systeme, einschließlich virtueller Maschinen, durch inkrementelle Sicherungen und Verifizierungstools, die die Datenintegrität in verschiedenen Serverkonfigurationen aufrechterhalten.