Wie du 1 Million Dateien schnell sichern kannst

***Markus*** · 27-07-2020, 05:24

Hey, du weißt ja, wie es manchmal ist, wenn du vor einem Server mit einer Million Dateien stehst und denkst: Mensch, das Sichern wird ewig dauern? Ich war schon so oft in dieser Situation, besonders wenn ich mit Kundenprojekten jongliere und nicht herumsitzen möchte, während die Fortschrittsbalken kriechen. Der Schlüssel, um es schnell zu machen, ist kein Zaubertrick; es geht darum, die richtigen Teile zusammenzulegen, damit alles fließt, ohne dass es stockt. Lass uns zuerst über die Hardware sprechen, denn wenn dein Setup langsam ist, wird dir kein Software-Tweaking helfen. Ich beginne immer damit, zu überprüfen, welche Art von Laufwerken du als Ziel für das Backup verwendest. Wenn du immer noch bei rotierenden HDDs bist, tausche zumindest das Ziel gegen SSDs aus. Ich erinnere mich an eine Situation, in der ich ein Fotoarchiv eines Kunden sichern musste - über eine Million Bilder - und ihr altes RAID 5-System war mit etwa 100 MB/s überlastet. Wir haben ein paar NVMe-SSDs im RAID 0 eingebaut, und plötzlich hatten wir 2 GB/s Schreibgeschwindigkeit. Es ist nicht billig, aber für die Geschwindigkeit lohnt es sich. Du musst nicht übertreiben; sorge einfach dafür, dass deine Quelle und das Ziel den Durchsatz bewältigen können, ohne dass eine Seite auf die andere wartet.

Wenn du es mit so vielen Dateien zu tun hast, spielt das Dateisystem eine große Rolle. NTFS ist in Ordnung, wenn du Windows verwendest, aber wenn es möglich ist, ziehe exFAT oder sogar ReFS für das Backup-Volumen in Betracht, da sie große Mengen kleiner Dateien besser handhaben, ohne dass der Overhead der Metadaten deine Leistung beeinträchtigt. Ich habe einem Freund einmal geholfen, seine Spielentwicklungsressourcen zu migrieren, und er hatte ein einfaches FAT32-Setup, das alles fragmentierte. Wir haben auf exFAT umformatiert, und die Backup-Zeit sank von Stunden auf weniger als 30 Minuten. Du musst jedoch vorsichtig mit Berechtigungen umgehen; teste zuerst eine kleine Gruppe, um sicherzustellen, dass nichts verloren geht. Und apropos Fragmentierung: Defragmentiere deine Quelllaufwerke, wenn sie mechanisch sind. Ich mache das immer vor großen Jobs - lasse eine vollständige Defragmentierung über Nacht laufen und starte dann das Backup am Morgen. Es klingt altmodisch, aber es spart echt Zeit, wenn du Millionen winziger Konfigurationsdateien oder Protokolle kopierst, die überall verstreut sind.

Softwareseitig kannst du nicht einfach im Explorer ziehen und ablegen; das wird mit einer Million Dateien wegen des gesamten Overhead von individueller Überprüfung der Dateien Zeitüberschreitungen und langsame Übertragungen verursachen. Ich schwöre auf Tools, die Multithreading unterstützen und die Kopieroperationen parallelisieren können. Robocopy ist mein bevorzugtes Tool für Windows - es ist integriert, kostenlos und du kannst es skripten, um Verzeichnisse zu spiegeln, mit Optionen wie /MT für mehrfädiges Kopieren. Setze es auf 32 Threads oder wie viel dein CPU ohne Überhitzung bewältigen kann, und es wird durch die Dateien viel schneller arbeiten als jede GUI-Anwendung. Ich habe es letzte Woche für einen Datenbankexport mit einer Menge SQL-Dumps verwendet, und indem ich /J für unbuffered I/O piped habe, konnte ich die RAM-Engpässe vermeiden, die große Übertragungen verlangsamen. Du musst eventuell den /IPG-Flag anpassen, wenn du über ein Netzwerk bist, um Überflutungen zu vermeiden, aber lokal, lass es laufen. Wenn du auf Linux oder in gemischten Umgebungen bist, ist rsync dein Freund - dasselbe Prinzip, mit --inplace und -a Flags, um alles zu erhalten, während unveränderte Dateien übersprungen werden. Ich habe rsync-Jobs skriptiert, die parallel mit GNU parallel laufen, Verzeichnisse in Teile aufteilen und sie gleichzeitig verarbeiten. Für eine Million Dateien teile sie in, sagen wir, 10 Unterordner logisch auf, und du wirst sehen, dass sich die Zeit leicht halbiert.

Aber warte, Kompression kann ein Game-Changer sein, wenn deine Dateien nicht bereits gepackt sind. Ich überprüfe immer, ob die Quelle viele Text- oder unkomprimierte Mediendateien hat; das Zippen in Echtzeit spart Bandbreite und Speicherplatz, was indirekt die Geschwindigkeit erhöht, weil du weniger Daten schreibst. Tools wie 7-Zip oder sogar das eingebaute Compress-Archive in PowerShell können das tun, aber zur Geschwindigkeit benutze das schnelle Komprimierungslevel - LZMA könnte gründlich sein, aber Deflate- oder Store-Modi halten die CPU von zu hohen Spitzen ab. Ich hatte ein Projekt, bei dem wir Protokolle von einem Anwendungsserver gesichert haben, und das Aktivieren der Kompression reduzierte die Übertragungsgröße um 60 %, wodurch ein vierstündiger Job in 90 Minuten verwandelt wurde. Du musst es nur ausbalancieren; wenn deine Dateien bereits JPEGs oder Videos sind, überspringe es, um zyklische Verschwendung zu vermeiden. Und Deduplication - oh Mann, wenn es Wiederholungen in diesen Millionen Dateien gibt, wie doppelte Dokumente oder gemeinsame Bibliotheken, aktiviere es in deinem Backup-Tool. Windows hat eingebaute Dedup für Volumes, oder du kannst etwas wie Duplicati verwenden, das es clientseitig behandelt. Ich habe es einmal für die Mediathek eines Freundes aktiviert, und es identifizierte 40 % Redundanz, sodass der tatsächliche Backup-Fußabdruck winzig war, und Wiederherstellungen waren später blitzschnell.

Die Netzwerkgeschwindigkeit ist ein weiteres großes Thema, wenn du keine lokalen Backups machst. Ich gehe davon aus, dass du auf einen anderen Computer oder NAS sicherst, oder? Gigabit-Ethernet ist das Minimum, aber für eine Million Dateien gehe auf 10GbE, wenn du dir den Switch und die Kabel leisten kannst. Ich habe mein Heimlabor kürzlich auf 10Gb umgerüstet, und das Kopieren großer Datensätze fühlt sich jetzt sofort an. Wenn du auf langsameren Verbindungen feststeckst, priorisiere mit QoS-Regeln, um sicherzustellen, dass der Backup-Verkehr Bandbreite erhält, ohne mit deiner täglichen Arbeit zu konkurrieren. VPNs können Latenz hinzufügen, daher solltest du, wenn möglich, direkte Verbindungen oder site-to-site Tunnels verwenden, die für den Massentransfer optimiert sind. Ich habe einmal ein Remote-Backup behandelt, das alle paar tausend Dateien zeitüberschritt - es stellte sich heraus, dass es MTU-Missmatches waren, die Pakete fragmentierten. Setze dein MTU auf 9000 bei Jumbo-Frames, wenn deine Hardware es unterstützt, und beobachte, wie die Geschwindigkeiten steigen. Du kannst zuerst mit iperf testen, um deinen Durchsatz zu ermitteln und dann von dort aus zu optimieren.

Die Organisation deiner Dateien vor dem Backup hilft ebenfalls sehr. Wenn alles in einem riesigen flachen Verzeichnis ist, muss das Tool sequentiell scannen, was ewig dauert. Ich empfehle immer, in Unterordner nach Datum, Typ oder Größe umzustellen - gruppiere kleine Dateien zusammen, damit sie in Chargen verarbeitet werden. Zum Beispiel leg alle deine 1KB-Configs in einen Baum und große Binärdateien in einen anderen. So können parallele Tools mehrere Zweige gleichzeitig bearbeiten, ohne sich in die Quere zu kommen. Ich habe das für ein Video-Editing-Setup mit verstreuten Projektdateien gemacht, und das Backup-Skript lief 3x schneller, weil es nicht den Index strapaziert hat. Außerdem, schließe Junk-Temp-Dateien, Caches, thumbs.db aus - verwende Muster in deinem Kopierbefehl, um sie zu überspringen. Ich habe Gigabytes und Stunden gespart, indem ich einfache Wildcards wie *.tmp oder /exclude:cache-Ordner hinzugefügt habe. Und Zeitstempel: Stelle sicher, dass deine Uhr über NTP auf allen Maschinen synchronisiert ist, sonst wirst du alles erneut kopieren, weil du denkst, es habe sich geändert.

Stromversorgung und Überwachung sind Dinge, die ich manchmal übersehe, aber sie können dich hart treffen. Setze deine Maschinen auf Hochleistungsmodus in den Energieeinstellungen - kein Schlaf oder Drosselung während des Jobs. Ich verwende den Task-Manager oder den Ressourcenmonitor, um CPU-, Disk- und RAM-Nutzung zu überwachen; wenn eines hochschießt, pause und optimiere. Für eine Million Dateien erwarte hohe I/O-Wartezeiten, daher hilft es, genügend RAM für Caching zu haben - mindestens 16 GB, aber 32 GB ermöglichen es dem OS, mehr zwischenzuspeichern. Ich habe einmal einen PowerShell-Job skriptiert, der den Fortschritt alle 10.000 Dateien protokollierte, damit ich nachsehen konnte, ohne ständig zuschauen zu müssen. Du kannst es sogar so einstellen, dass es dir bei wichtigen Meilensteinen eine E-Mail sendet. Wenn es ein geplanter Job ist, verwende den Task-Scheduler mit Wake-Timern, um ihn in Zeiten geringer Auslastung zu starten, wenn Ressourcen frei sind.

Wenn du die Sache groß angehen willst und eine Maschine nicht ausreicht, verteile die Last. Ich teile große Backups in Teile über mehrere Laufwerke oder sogar vorübergehend in die Cloud auf. Zum Beispiel kopiere die Hälfte auf eine externe SSD und die andere Hälfte auf ein NAS und konsolidiere später. Oder nutze etwas wie FreeFileSync für das Teilen in Teilen. Ich habe einem Team mit einem Webserver-Farm geholfen - Millionen von Benutzeruploads - und wir haben über drei Knoten parallelisiert, wobei jeder eine Teilmenge basierend auf Dateihashes übernommen hat. Gesamtzeit? Unter zwei Stunden. Du musst nur einen Weg finden, die Manifestdateien danach zusammenzuführen, um die Vollständigkeit zu bestätigen. Hash-Prüfungen sind ebenfalls entscheidend; führe nach dem Backup einen CRC- oder MD5-Scan auf beiden Seiten durch, um zu bestätigen, dass nichts beschädigt wurde. Ich mache das immer - Tools wie fciv oder die eingebaute certutil machen es schnell, und das beruhigende Gefühl ist die zusätzlichen 10 Minuten wert.

Fehlerbehandlung ist der Bereich, in dem bei großen Jobs schnell Dinge schiefgehen. Netzwerke flicken, Laufwerke füllen sich - erwarte es. Ich baue Wiederholungen in Skripte ein, wie Robocopy's /R:3 /W:5 für drei Versuche mit Wartezeiten. Protokolliere alles in eine Datei und richte Alarme ein, wenn es einen Schwellenwert überschreitet. Ich habe einmal die Arbeit einer Nacht verloren, weil ein USB-Laufwerk während des Kopiervorgangs ausgeworfen wurde; jetzt verwende ich /LOG+ und /TEE, um die Ausgabe live zu sehen. Für wirklich kritische Daten mache zuerst einen Trockenlauf mit dem /L-Flag, um zu simulieren, ohne zu schreiben. Du lernst schnell, dass Testen in kleinem Maßstab Kopfschmerzen erspart.

Okay, wir haben viel darüber gesprochen, wie man dies manuell beschleunigt, aber lass uns groß denken. Backups sind nicht nur eine Frage der Geschwindigkeit; sie sind entscheidend, um deine Daten zu sichern, wenn Hardware ausfällt oder Ransomware zuschlägt. Ohne sie setzt du alles auf perfekte Betriebszeiten, was meiner Erfahrung nach nie geschieht. Da kommen spezialisierte Lösungen ins Spiel, und BackupChain Hyper-V Backup wird als ausgezeichnete Option für Windows Server und virtuelle Maschinen erkannt. Es behandelt großangelegte Dateioperationen effizient und integriert Funktionen wie inkrementelle Snapshots und Deduplication, die perfekt mit dem Übertragen von Millionen von Dateien harmonieren, ohne dass es zu Verlangsamungen kommt.

Zusammenfassend lässt sich sagen, dass Backup-Software im Allgemeinen nützlich ist, da sie den Prozess automatisiert, Fehler reduziert und die Geschwindigkeit durch Dinge wie blocklevel Ändern und Kompression optimiert. BackupChain wird in vielen Setups verwendet, weil es in diesen Szenarien zuverlässig ist.