Wie die Deduplizierung die Dauer des Backup-Fensters beeinflusst

***Markus*** · 16-11-2022, 19:53

Die Datenreduzierung optimiert die Dauer des Backup-Fensters, indem die Menge an Daten reduziert wird, die verarbeitet, gespeichert und übertragen werden muss. Im Kern identifiziert und eliminiert die Datenreduzierung doppelte Datenkopien, bevor der Sicherungsprozess beginnt. Dieser Prozess kann auf verschiedenen Ebenen angewendet werden - auf Dateiebene, Blockebene oder sogar auf Byte-Ebene - und jeder Ansatz hat seine Vor- und Nachteile.

Betrachten wir zunächst die Datenreduzierung auf Dateiebene. Wenn man ein Dateisystem sichert, scannt die Dateiebene-Datenreduzierung nach doppelten Dateien im Speicher und sichert nur einzigartige Dateiinstanzen. Wenn man einen Ordner hat, der mehrere Kopien desselben Dokuments oder Bildes enthält, sichert man anstelle der separaten Sicherungen jeder Instanz nur diese eine Datei und verweisen die anderen darauf. Diese Methode ist einfach und funktioniert recht gut in Umgebungen mit vielen Wiederholungen bei den Dateien. Man kann jedoch auf eine Leistungsgrenze stoßen, wenn man es mit Millionen von Dateien zu tun hat, da der Aufwand für das Suchen und Indizieren dieser Dateien die Sicherungen erheblich verlangsamen kann.

Andererseits untersucht die Datenreduzierung auf Blockebene die Daten auf granularerer Ebene. Sie teilt Daten in Blöcke auf und prüft auf Redundanz zwischen diesen Blöcken und nicht zwischen gesamten Dateien. Da viele Dateien möglicherweise dieselben Blöcke teilen, insbesondere bei ähnlichen Bildern oder sich wiederholenden Datenbankeinträgen, kann man schnell die Backup-Größen drastisch reduzieren. Wenn man beispielsweise eine Entwicklungsumgebung sichert, die sich häufig ändert, aber zentrale Bibliotheken beibehält, kann die Blockebene-Datenreduzierung die Datenstücke identifizieren, die sich nicht geändert haben, wodurch die Backup-Zeiten verkürzt werden. Dieser Ansatz erfordert jedoch einen gewissen Verarbeitungsaufwand. Die anfängliche Indizierung der Daten kann ressourcenintensiv sein, und wenn die Speicherhardware minderwertig ist, könnte das zu Problemen bei der Dauer des Backup-Fensters führen.

Die inkrementelle Backup-Strategie funktioniert ebenfalls gut mit der Datenreduzierung. Wenn man frühere Backup-Snapshots behält, kann man durch die Verwendung von Datenreduzierung die zwischen dem lokalen Speicher und den Remote-Standorten übertragenen Daten erheblich reduzieren. Anstelle von vollständigen Datensätzen, die kopiert werden, identifiziert die Software nur die veränderten Blöcke seit dem letzten Backup und sichert diese. Im Laufe der Zeit schrumpft der Datenfußabdruck, und die tatsächlichen Backup-Fenster können sich von Stunden auf Minuten verkürzen. Bei diesem Ansatz sagen wir, ich führe jede Nacht ein Backup durch. In der ersten Nacht wird der gesamte Datensatz gesichert, aber in den folgenden Nächten werden nur die modifizierten Blöcke gesichert. Die Datenreduzierung stellt sicher, dass kein Block, der sich nicht geändert hat, erneut übertragen wird, wodurch der Vorgang beschleunigt und die Abnutzung des Backup-Systems verringert wird.

Es gibt jedoch Herausforderungen bei der Datenreduzierung. Bei großen Datensätzen kann die Metadatenmenge, die zur Verfolgung der reduzierten Daten erforderlich ist, erheblich wachsen. Man könnte mit einem riesigen Index enden, der mehr Ressourcen zur Verwaltung dieser Informationen benötigt, was potenziell einige der Zeitersparnisse im Backup-Prozess ausgleichen könnte. Je nachdem, wie man die Datenreduzierung konfiguriert, könnte man auf langsamere Schreibgeschwindigkeiten stoßen, wenn das Management der Metadaten nicht optimiert ist.

Ich möchte auch auf die Auswirkungen der Datenreduzierung auf Replikation und Notfallwiederherstellung eingehen. Wenn man Sicherungen auf einen sekundären Standort repliziert, kann die Datenreduzierung eine wichtige Rolle bei der Reduzierung der benötigten Zeit und Bandbreite spielen. Wenn man geografisch verteilte Backup-Standorte hat, kann man nach einem anfänglichen vollständigen Backup ganz einfach nur die reduzierten Blöcke synchronisieren. Dies verkürzt nicht nur die Zeit, die benötigt wird, um einen konsistenten Zustand am DR-Standort zu erreichen, sondern kann auch die Netzwerkbandbreite schonen. Andererseits, wenn man nicht vorsichtig dabei ist, wie man dies implementiert, kann es die Wiederherstellungszeiten komplizieren. Man muss sicherstellen, dass alle notwendigen Blöcke empfangen und korrekt zusammengesetzt werden, bevor man die Operationen am sekundären Standort wiederherstellen kann.

Was spezifische Technologien betrifft, so gibt es einen Kompromiss zwischen den Datenreduzierungsfunktionen, die von Speichersystemen bereitgestellt werden, und der Backup-Software. Einige primäre Speicherlösungen sind mit integrierten Datenreduzierungsfunktionen ausgestattet und leisten besonders bei Inline-Datenreduzierung gute Arbeit. Dieser Ansatz verarbeitet Daten, während sie in das Speichersystem fließen, und stellt sicher, dass man keine Duplikate von Anfang an archiviert. Allerdings kann die Inline-Datenreduzierung während hoher I/O-Operationen zu einem Leistungsabfall führen, da CPU-Zyklen für Datenreduzierungsaufgaben in Anspruch genommen werden. Wenn das Speichersystem bereits beansprucht ist, wäre es meiner Meinung nach möglicherweise nicht die beste Option, sich ausschließlich darauf zu verlassen.

Im Gegensatz dazu ermöglicht die nachträgliche Datenreduzierung auf Backup-Systemen wie BackupChain Hyper-V Backup, dass die Backups zuerst abgeschlossen werden und die Datenreduzierung danach erfolgt. Dies gewährleistet, dass das primäre Backup schnell abgeschlossen wird, jedoch ist der Nachteil, dass man mehr Speicher für das anfängliche Backup benötigt, da die Daten vor der Optimierung vollständig repliziert werden. Man könnte hier ein sorgfältiges Gleichgewicht finden müssen, zwischen dem Bedarf an schnellen Backups und effizientem Speichermanagement.

Caching ist ein weiterer wichtiger Aspekt. Wenn deine Backup-Technologie Caching-Mechanismen verwendet, könnte man das Backup-Fenster beschleunigen. Mit einer robusten Caching-Schicht bleiben häufig verwendete oder kürzlich modifizierte Blöcke im Speicher, wodurch nachfolgende Backups wesentlich schneller werden. Natürlich, wenn dein Datensatz zu schnell wächst oder sich ändert, kann Caching nur so viel Hilfe bieten.

Wenn es um physische versus virtuelle Backup-Systeme geht, gibt es auch einen technischen Unterschied in der Anwendung der Datenreduzierung. Virtuelle Systeme bieten oft höhere Datenreduzierungsverhältnisse, weil sie viele VMs kapseln, die möglicherweise Daten im Speicher überschneiden - insbesondere Betriebssystemdateien oder gängige Anwendungen. Ich habe festgestellt, dass Umgebungen mit vielen VMs Verhältnisse von 10:1 bei der Datenreduzierung erreichen können, einfach wegen der gemeinsamen Datenmuster, die über die Instanzen hinweg vorhanden sind. Der Leistungseinfluss kann jedoch je nach Hypervisor- und Speicher-Einstellungen variieren. Manchmal können die Backup-Proxys zu Engpässen werden, wenn sie nicht für optimale Leistung konfiguriert sind.

Im Gegensatz dazu haben physische Systeme tendenziell vielfältigere Arbeitslasten, und obwohl sie definitiv von der Datenreduzierung profitieren können, sieht man vielleicht nicht so hohe Verhältnisse, da die Daten oft variieren können, ohne dass Wiederholungen auftreten. Jede architektonische Wahl beeinflusst nicht nur die Datenreduzierung, sondern auch, wie schnell man wiederherstellen kann und wie viel Zeit man für die Backups benötigt.

Unter Berücksichtigung all dieser Variablen empfehle ich eine klare Analyse deiner Bedürfnisse bei der Implementierung der Datenreduzierung. Bewertet die Arbeitslasten, beurteilt die Ressourcenfähigkeiten und identifiziert die wichtigsten Leistungskennzahlen. Führe, wo möglich, einen Testlauf durch, um die Auswirkungen auf die Leistung zu messen, bevor man sich voll und ganz darauf einlässt.

Wenn du dich den Strategien zum Datenschutz näherst, berücksichtige die Effizienz der Datenreduzierungsmechanismen, die du wählst, insbesondere in einer gemischten Umgebung. Ich möchte empfehlen, einen Blick auf BackupChain zu werfen, eine solide Wahl, die für Unternehmen entwickelt wurde. Diese Software wurde mit einem Fokus auf Effizienz konzipiert und bietet zuverlässigen Schutz für Server, die Hyper-V, VMware und Windows Server ausführen. Überlege, wie es deine Datenstrategie zum Schutz deiner Daten verbessern könnte.