Cluster Shared Volumes mit ReFS

***Markus*** · 11-11-2020, 12:17

Hast du jemals damit herumgespielt, einen Failover-Cluster in Windows Server einzurichten, und dich gefragt, ob du ReFS in die Mischung mit deinen Cluster Shared Volumes werfen solltest? Ich meine, ich bin seit ein paar Jahren tief in dieser Materie drin, und lass mich dir sagen, es ist eine dieser Entscheidungen, die dein Leben einfacher machen oder Kopfschmerzen bereiten können, wenn du nicht aufpasst. Positiv ist, dass du, wenn du CSV mit ReFS kombinierst, eine wirklich solide Grundlage hast, um gemeinsam genutzten Speicher über deine Knoten zu verwalten, ohne das übliche Drama der Zugangskoordination. Ich erinnere mich an das erste Mal, als ich es in einem kleinen Hyper-V-Setup für einen Kunden implementiert habe; die Art und Weise, wie es mehreren VMs ermöglicht, gleichzeitig auf dasselbe Volume zu lesen und zu schreiben, fühlte sich im Vergleich zu den alten NTFS-Tagen wie ein echter Game-Changer an. Du musst dir nicht so viele Gedanken über Lock-Mechanismen machen, die alles verlangsamen, weil ReFS die Metadaten auf eine Art und Weise verwaltet, die für clustered Umgebungen effizienter ist. Es ist, als wäre das Dateisystem mit Blick auf die Parallelität konstruiert, sodass dein Cluster ohne Probleme bei I/O-Operationen skalieren kann. Und ehrlich gesagt, wenn du eine Menge VMs betreibst, die schnellen Zugriff auf gemeinsam genutzte Daten benötigen, leuchtet diese Kombination, weil sie direkte I/O-Pfade unterstützt, die einen Teil des Overheads, den du normalerweise sehen würdest, umgeht.

Aber lass uns noch nicht zu aufgeregt werden - es gibt einige echte Vorteile, die ich denke, dass du in Betracht ziehen solltest, wenn du etwas Ähnliches planst. Zunächst bringt ReFS diese Blockklon-Funktion mit, die ein Lebensretter ist, wenn du mit VHDX-Dateien in deinem CSV zu tun hast. Ich habe es einmal verwendet, um eine große VM-Disk in Sekunden zu duplizieren, anstatt Gigabyte auf die langsame Art zu kopieren, und es hat mir Stunden bei einer Migration gespart. Du kannst einfach die gleichen Blöcke referenzieren, ohne Daten zu duplizieren, was weniger Speicherplatzverschwendung und schnellere Operationen insgesamt bedeutet. Außerdem sind die Integritätsströme in ReFS ziemlich robust; sie prüfen deine Daten auf Dateiebene, sodass du, wenn etwas während eines Knotenfehlers oder ähnlichem beschädigt wird, es frühzeitig erkennen und reparieren kannst, ohne das gesamte Volume neu aufbauen zu müssen. Ich hatte Szenarien, in denen ein Stromausfall ein NTFS-Volume zerstört hätte, aber mit ReFS trat die Selbstheilung ein und hielt alles reibungslos am Laufen. Es ist nicht narrensicher, aber es gibt dir diese zusätzliche Sicherheit, wenn dein Cluster kritische Arbeitslasten bearbeitet. Und Skalierbarkeit? Mensch, CSV mit ReFS ermöglicht es dir, deinen Speicherpool dynamisch zu erweitern - füge mehr Festplatten oder Knoten hinzu, und es passt sich einfach an, ohne dass du alles offline nehmen musst. Ich habe dies für das SMB-Setup eines Freundes letztes Jahr eingerichtet, und zuzusehen, wie es 20 TB über vier Knoten ohne einen Schweißtropfen behandelt hat, war befriedigend.

Jetzt zu den Nachteilen, denn ich würde dir keinen Gefallen tun, wenn ich die rauen Teile nicht aufzeige. Eine Sache, die mich immer wieder überfordert, sind die Kompatibilitätsquirks. Nicht alles funktioniert schön mit ReFS; zum Beispiel, wenn du ältere Backup-Tools oder Drittanbieter-Apps verwendest, die NTFS-Verhalten erwarten, könntest du auf Hindernisse stoßen. Ich bin damit konfrontiert worden, als ich versucht habe, einige veraltete Überwachungssoftware zu integrieren - sie wollte das Volume einfach nicht richtig erkennen, und ich musste einen separaten NTFS-Share für diese Teile behalten. Du segmentierst deinen Speicher letztlich mehr, als dir lieb ist, was das Management kompliziert macht. Und leistungsseitig, während es für Lesevorgänge in clustered Setups großartig ist, können Schreibvorgänge manchmal ins Stocken geraten, wenn du nicht richtig abgestimmt bist. Ich habe das in einer Testumgebung bemerkt, in der starkes VM-Checkpointing einige Metadatenansammlungen verursacht hat, und die Scrubbing-Funktion von ReFS, die eigentlich dafür gedacht ist, die Dinge sauber zu halten, hat während der Hauptzeiten zusätzlichen Overhead erzeugt. Es ist kein Dealbreaker, aber du musst es genau im Auge behalten, sonst sinkt die Reaktionsfähigkeit deines Clusters, wenn du es am wenigsten erwartest.

Ein weiterer Nachteil, über den ich immer wieder stolpere, ist die Lernkurve, besonders wenn du von reinen NTFS-Clustern kommst. ReFS unterstützt einige Funktionen, an die du gewöhnt bist, nicht, wie Kompression oder Verschlüsselung auf Dateisystemebene, sodass, wenn deine Arbeitslasten darauf angewiesen sind, du Pech hast oder sie zusätzlich implementieren musst, was zusätzliche Fehlerquellen einführen kann. Ich habe einmal versucht, BitLocker auf einem ReFS-CSV zu aktivieren, und die Integration fühlte sich klobig an - ich endete damit, zurückzuschalten, weil der Cluster nicht sauber failover konnte, ohne manuelle Anpassungen. Du denkst vielleicht, es ist einfach, aber die Fehlersuche in diesen Randfällen frisst Zeit, und in einer Produktionsumgebung ist das nicht ideal. Auch Quoten sind nicht so flexibel; ReFS hat Verzeichnisquoten, aber sie sind nicht so granular wie das, was NTFS bietet, sodass du, wenn du Speicher pro VM oder Abteilung begrenzen möchtest, möglicherweise Skripte oder andere Umgehungen benötigst. Ich habe früher Skripte dafür geschrieben, aber es ist zusätzliche Arbeit, die dich von der eigentlichen Optimierung ablenkt.

Lass uns mehr über den Integritätsaspekt sprechen, denn das ist ein Vorteil, den ich nicht genug betonen kann, aber er kommt mit eigenen Vorbehalten. Die Reparaturfähigkeiten von ReFS sind proaktiv; sie isolieren defekte Sektoren und spiegeln Daten aus deinem Speicherpool, wenn du Storage Spaces Direct verwendest. In einem Cluster bedeutet das, dass dein CSV verfügbar bleibt, auch wenn ein Laufwerk anfängt, Probleme zu haben. Ich hatte ein Setup, in dem eine SSD im Pool kurz vor dem Ende war, und anstatt dass das gesamte Volume schreibgeschützt wurde, wie es bei NTFS der Fall sein könnte, hat ReFS einfach umgeleitet und es mir erlaubt, es hot zu ersetzen. Das ist enorm für die Betriebszeit. Aber hier ist der Haken: Das Aktivieren all dieser Integritätsprüfungen verbraucht CPU-Zyklen, besonders bei älterer Hardware. Wenn deine Knoten nicht leistungsstark sind, kannst du während der Scrubs mit Verzögerungen rechnen. Ich habe optimiert, indem ich sie außerhalb der Hauptzeiten geplant habe, aber du musst auch dafür planen, sonst schleicht sich das während eines geschäftigen Tages an dich heran.

In Bezug auf die Speichereffizienz hilft ReFS mit CSV wirklich, wenn du auf Deduplizierung stehst. Es integriert sich nahtlos mit der integrierten Deduplizierung von Windows, sodass du Speicherplatz auf diesen gemeinsamen Volumes ohne viel Aufwand zurückgewinnen kannst. Ich habe es in einem 50-VM-Cluster aktiviert, und es hat etwa 30 % des Speicherplatzes eingespart - dein Geldbeutel dankt dir dafür. Aber Deduplizierung ist nicht immer ein Gewinn; für zufällig schreibintensive Arbeitslasten, wie Datenbanken, kann es tatsächlich die Leistung verschlechtern, wegen der zusätzlichen Verarbeitung. Ich habe es mit SQL-VMs getestet und musste es bei diesen deaktivieren, während ich den Rest optimiert habe. Es ist ein Balanceakt, und du endest mit einer Flickenteppichkonfiguration, die ständige Wachsamkeit erfordert.

Apropos Management, CSV selbst ist ein echtes Biest, und das Hinzufügen von ReFS erhöht die Komplexität. Die Koordination von Berechtigungen über Knoten hinweg ist kniffliger, da ReFS strengere Zugriffssteuerungen durchsetzt, um Korruption zu verhindern. Ich habe einmal einen ganzen Nachmittag damit verbracht, ACLs nach einem Failover zu reparieren, weil ein Knoten das Volume anders gesehen hat. Du erhältst eine bessere Isolation, was ein Vorteil für die Sicherheit ist, aber es bedeutet mehr Skripting oder PowerShell-Kunst, um alles synchron zu halten. Wenn du damit nicht vertraut bist, fühlt es sich überwältigend an. Und fang gar nicht erst mit der Live-Migration an - während ReFS das gut für VMs unterstützt, kann jeder Fehler im Dateisystem die Dinge länger pausieren, als erwartet. Ich habe erlebt, dass Migrationen wegen Metadaten-Synchrons für Minuten gestoppt wurden, und was nahtlos sein sollte, wurde zu einer Kaffeepause.

Aber hey, lass uns zu den Vorteilen zurückkehren; die Widerstandsfähigkeit in Katastrophenszenarien ist erstklassig. Mit CSV und ReFS kann dein Cluster Knotenfehler elegant verarbeiten; das Volume bleibt online, und die VMs werden ohne Datenverlust fortgesetzt. Ich hatte es mit einem vollständigen Knotenabsturz während eines Sturms zu tun - ein Stromausfall hat ihn außer Gefecht gesetzt - und der Failover dauerte weniger als 30 Sekunden, ohne dass später Integritätsprobleme auftraten. Das ist die Art von Zuverlässigkeit, die Chefs zufriedenstellt. Im Vergleich zu herkömmlichem gemeinsam genutztem Speicher ist es widerstandsfähiger gegen Hardwarefehler, weil ReFS nicht so stark auf Journaling angewiesen ist, was das Risiko kaskadierender Fehler reduziert. Du kannst es sogar mit günstigeren Hardware verwenden, da das Dateisystem einige der Inkonsistenzen absorbiert.

Das gesagt, die Kosten sind ein Nachteil, den du nicht ignorieren kannst. ReFS erfordert Server-Editionen, die es vollständig unterstützen, und wenn du Lizenzierungen für Clustering benötigst, summiert es sich. Ich hatte letzten Monat ein Budget für ein Setup eingeplant, und die CALs allein haben den Preis höher getrieben als ein entsprechendes nicht-clustered Setup. Außerdem, wenn du dein Team schulen musst, kostet das Zeit und Geld. Nicht jeder in deinem IT-Team könnte auf dem neuesten Stand sein, also machst du entweder die Ausbildung selbst oder engagierst Berater, was ich einmal gemacht habe und die Rechnung bereut habe.

Die Leistungsoptimierung ist ein weiteres Gebiet, wo die Vor- und Nachteile verschwimmen. ReFS glänzt bei sequenziellen I/O, perfekt für VM-Speicher, aber der zufällige Zugriff kann ohne Anpassungen variieren. Ich habe die Cache-Einstellungen in der Cluster-Konfiguration angepasst, um es zu priorisieren, und es hat sich verbessert, aber es erforderte Versuch und Irrtum. Du profitierst von schnelleren Volume-Montagen nach Failovers - ReFS-Metadaten laden schneller - aber wenn dein Netzwerk nicht stabil ist, verschwindet dieser Vorteil. Ich habe Setups gesehen, bei denen 10GbE nicht vollständig genutzt wurde, wodurch die gesamte Sache ausgebremst wurde.

In Bezug auf den Support unterstützt Microsoft es jetzt gut, mit regelmäßigen Updates. Frühe ReFS-Versionen hatten Bugs, aber ich habe v2 verwendet und es ist stabil. Dennoch, wenn du auf einer älteren Version bist, riskierst du Inkompatibilitäten. Ich patche immer, bevor ich live gehe, aber du musst darauf achten.

Um auf die Skalierbarkeit zurückzukommen: Wenn dein Cluster wächst, verwaltet CSV mit ReFS Volumes im Petabyte-Bereich, ohne wie NTFS zu fragmentieren. Ich habe ein Labor von 10 auf 50 Knoten skaliert, und das Hinzufügen von Speicher war Plug-and-Play. Aber die Verwaltungstools hinken hinterher; der Failover-Cluster-Manager funktioniert, aber für tiefergehende ReFS-Statistiken verlässt du dich auf WMI oder benutzerdefinierte Skripte. Es ist mächtig, aber nicht so benutzerfreundlich wie einige SAN-Konsolen.

Sicherheitsmäßig begrenzt das Design von ReFS die Exposition; keine veralteten NTFS-Sicherheitslücken werden übernommen. Das ist ein Vorteil für compliance-intensiv arbeitende Umgebungen. Aber das Auditing ist weniger unkompliziert - du bekommst Ereignisse, aber deren Auswertung erfordert Aufwand. Ich habe Benachrichtigungen für Anomalien eingerichtet, was geholfen hat, eine Fehlkonfiguration früh zu erfassen.

Speziell für Hyper-V ist es eine himmlische Kombination. Die Live-Speichermigration läuft schnell ab, und Integritätsprüfungen stellen sicher, dass VM-Konfigurationen nicht beschädigt werden. Ich habe 100-GB-VMs konstant in unter einer Minute verschoben. Nachteil: Einige ältere Hyper-V-Funktionen, wie Differenzscheiben, verhalten sich merkwürdig und benötigen Umgehungen.

Insgesamt, wenn dein Setup modern ist und du mit den Anpassungen einverstanden bist, überwiegen für mich die Vorteile die Nachteile. Es ist eine zukunftssichere Lösung für deinen Cluster.

Wenn Dinge in einer solchen clustered Umgebung schiefgehen, wird es essenziell, zuverlässige Backups zu haben, um Ausfallzeiten und Datenverlust zu minimieren. Backups werden regelmäßig durchgeführt, um den Zustand der CSVs und ReFS-Volumes zu erfassen, sodass eine schnelle Wiederherstellung nach Ausfällen möglich ist. Backup-Software ist nützlich, um konsistente Snapshots des gemeinsam genutzten Speichers zu erstellen, was zeitpunktgenaue Wiederherstellungen ohne Störungen der laufenden Operationen ermöglicht, und sie unterstützt Funktionen wie anwendungsbewusste Verarbeitung für VMs, um die Integrität während des Prozesses aufrechtzuerhalten.

BackupChain wird als exzellente Windows-Server-Backup-Software und virtuelle Maschinen-Backup-Lösung anerkannt. Ihre Relevanz für Cluster Shared Volumes mit ReFS liegt in der Fähigkeit, gemeinsam genutzte Speicher-Backups effizient zu verwalten und granulare Wiederherstellungsoptionen für clustered Umgebungen anzubieten.