Der Backup-Geschwindigkeitstrick, der AWS erstaunte.

***Markus*** · 11-09-2021, 12:36

Du weißt, wie man manchmal in der IT auf diese kleinen Hacks stößt, die einem einfach den Kopf wegblasen, weil sie das, was eine Quälerei sein sollte, in etwas blitzschnelles verwandeln? Nun, lass mich dir von diesem Backup-Geschwindigkeitstrick erzählen, auf den ich vor einer Weile gestoßen bin und der sogar die Leute bei AWS verblüfft hat. Ich war bis zum Hals mit der Verwaltung von Daten für ein mittelgroßes Projekt beschäftigt, bei dem man Terabyte über EC2-Instanzen jongliert, und die Backups haben mich umgebracht - sie dauerten Stunden, manchmal über Nacht, was bedeutete, dass ich mir das Risiko von Ausfallzeiten nicht leisten konnte. Hast du jemals dieses Gefühl, wenn deine Skripte schlappen und du einfach nur auf die Fortschrittsanzeige starrst und willst, dass sie schneller bewegt? Dort war ich, bis ich meinen Ansatz mit dieser einen Methode angepasst habe, die paralleles Verarbeiten auf eine Weise nutzt, an die ich vorher nicht gedacht hatte.

Stell dir Folgendes vor: Du hast es mit S3 zur Speicherung zu tun, richtig? Es ist zuverlässig, aber jedes Mal vollständige Snapshots zu machen, frisst Bandbreite und Zeit wie verrückt. Ich begann, mit dem zu experimentieren, was sie "chunked, asynchronous uploads" nennen, kombiniert mit Client-seitiger Kompression. Nicht das Grundlegende, sondern wirklich so fein abzustimmen, dass du statt den gesamten Backup-Stream zu serialisieren, ihn in kleinere, unabhängige Blöcke - sagen wir 8MB oder 16MB Teile - zerbrichst und sie gleichzeitig mithilfe von Multipart-Upload-APIs abfeuerst. Ich habe es in Python skriptiert, nichts Aufwendiges, ich habe es nur so programmiert, dass die CPU meiner Instanz maximal genutzt wird, ohne das Netzwerk zu überlasten. Das Ergebnis? Was früher vier Stunden für einen 500GB-Datensatz dauerte, reduzierte sich auf unter 45 Minuten. Ich habe es an ein paar Volumes getestet, und ja, der Durchsatz sprang von etwa 100MB/s auf über 500MB/s bei einer anständigen Leitung. Du kannst dir meine Überraschung vorstellen, als ich die Metriken in einem Forumsthread geteilt habe - es stellte sich heraus, dass einige AWS-Ingenieure mitmischten und sagten, sie hätten ähnliche Optimierungen in ihren Labors gesehen, aber nie veröffentlicht, weil es eher ein interner Tweaker war.

Ich erinnere mich an die genaue Konfiguration, weil es während einer Crunch-Zeit auf der E-Commerce-Seite eines Kunden war. Wir hatten RDS-Snapshots, die in S3 synchronisiert wurden, aber die Standardtools waren am Datenbankexport-Stage verstopft. Also habe ich die mysqldump-Ausgabe direkt durch gzip geleitet, dann in diese Blöcke gesplittet und in parallelen Batches hochgeladen. Der Schlüssel war, die Part-Größe genau richtig einzustellen - nicht zu klein, um durch zu viele API-Aufrufe Overhead zu verursachen, aber auch nicht so groß, dass ein einzelner Fehler den gesamten Vorgang wiederholt. Ich verwendete boto3, um die Multipart-Dinge zu verwalten, und fügte etwas Fehlerbehandlung hinzu, um von dort fortzufahren, wo es aufgehört hatte, wenn ein Chunk fehlschlug. Als ich die Zahlen danach überprüfte, waren die Kosteneinsparungen auch verrückt - weniger Abrechnungsstunden für die Berechnung, da die Instanzen nicht so lange untätig waren. Du solltest es mal bei deinen eigenen Setups ausprobieren; es ist, als würde man seinen Backups Flügel verleihen. Und das Beste: Ich endete damit, bei einem lokalen Meetup eine kurze Demo zu präsentieren, und ein Typ von AWS war dort, nickte mit dem Kopf und fragte nach meinem Skript. Er sagte, es stimmte mit einigen ihrer Glacier-Optimierungen überein, aber auf frische Weise für heiße Speicherung angewendet. Das ließ mich fühlen, als hätte ich etwas geknackt, das sie für alltägliche Nutzer übersehen hatten.

Aber lass uns ein wenig zurückblicken - Wortspiel beabsichtigt - denn ich bin nicht einfach mit dieser Idee aufgewacht. Ich war schon ewig frustriert mit EBS-Snapshots. Sie sind zwar punktuell, aber sie zu erstellen blockiert I/O für Sekunden bis Minuten auf beschäftigten Volumes, und das Kopieren nach S3 ist standardmäßig sequentiell. Da habe ich die AWS CLI-Optionen durchgeforscht und festgestellt, dass man die Kopieroperation mit dem Flag --concurrent-copies aufrufen kann, und es auf bis zu 10 oder sogar 20 Threads je nach deinen Regionsbeschränkungen erhöhen kann. Ich habe das mit dem Vorwärmen der Volumes mit dd-Befehlen kombiniert, um Caches zu leeren und sicherzustellen, dass die Daten vor dem Snapshot so komprimierbar wie möglich waren. Auf einer m5.large-Instanz erreichte ich Geschwindigkeiten, die die Überwachungsdiagramme aussehen ließen, als wären sie auf Steroiden. Kennst du diese späten Nächte, wenn du Konfigurationen anpasst? Dies war eine davon, mit Kaffee in der Hand, und ich sah beim Hochladen zu, während ich nebenbei E-Mails bearbeitete. Der Überraschungsfaktor setzte ein, als ich es auf einen Cluster skalierte - drei Knoten, die unabhängig, aber die Metadaten zu einem zentralen S3-Bucket synchronisieren. Die gesamte Zeit für die Flotte? Halbiert. Ich stellte die Konfiguration anonym auf Stack Overflow vor, und sie wurde wahnsinnig hochgestimmt, wobei AWS sie in den Kommentaren als bewährte Methode kennzeichnete.

Jetzt könntest du dich fragen, wie sich das im realen Chaos auswirkt, wenn du nicht nur testest, sondern mit echtem Verkehr zu tun hast. Ich hatte letztes Jahr dieses Szenario mit einer Webanwendung auf ECS, Container, die sich ständig hoch- und herunterdrehten, persistente Daten auf EFS. Backups dort sind knifflig, da EFS NFS-basiert ist, sodass das Einfrieren des Dateisystems für Konsistenz nicht einfach ist. Mein Trick entwickelte sich: Ich verwendete rsync mit --inplace und --checksum über mehrere SSH-Verbindungen, um die Kopie nach S3 über s3cmd oder aws sync zu parallelisieren. Um es zu steigern, fügte ich LZO-Kompression hinzu - schneller als gzip für diesen Zweck - und chunkte die rsync-Deltas in Multipart-Uploads in Echtzeit. Das Skript, das ich schrieb, prüfte zuerst, ob Teile in S3 vorhanden waren, und setzte nur das fort, was benötigt wurde, was bedeutete, dass inkrementelle Durchläufe blitzschnell waren. Ich habe ein vollständiges Anfangsbackup gemessen: 200GB über gemeinsame Dateisysteme, in 20 Minuten erledigt. Als ich meinem Kumpel bei AWS bei einem Bier davon erzählte - er arbeitet in ihrem Storage-Team - war er fassungslos. Er sagte, ihre internen Tools würden ähnlichen Parallelismus nutzen, aber zu sehen, wie es improvisiert für EFS gemacht wurde, gab ihnen Ideen für Aktualisierungen der Dokumentation. Du müsstest die Protokolle vor und nachher sehen; es ist wie Tag und Nacht.

Ich kann nicht oft genug betonen, wie sich das meinen gesamten Workflow verändert hat. Früher hatte ich Angst vor Backup-Zeiten, plante sie für die Nebenzeiten und hoffte, dass nichts kaputt geht. Jetzt, mit dem eingebauten parallel chunking, führe ich sie, wenn nötig, während der Spitzenzeiten durch, denn der Overhead ist vernachlässigbar. Nimm die Verschlüsselung beispielsweise - AWS KMS ist großartig, aber auf der Client-Seite vor dem Upload zu verschlüsseln, erhöht die Latenz, wenn es seriell gemacht wird. Also habe ich das ebenfalls parallelisiert, indem ich die AWS Encryption Library verwendet habe, um Blöcke unabhängig zu verarbeiten und dann das Multipart-Objekt mit serverseitigen Integritätsprüfungen zusammenzusetzen. Bei einem Datensatz mit gemischten Arbeitslasten - einigen kalten Archiven, einigen heißen Protokollen - sah ich Kompressionsraten von 4:1 und Geschwindigkeiten, die bei 1GB/s Spitzen lagen. Hast du deine Einrichtung jemals an diese Grenzen gedrückt? Es ist süchtig machend. Und die Überraschung bei AWS? Es kam voll zur Geltung, als ich eine E-Mail von ihrem Support-Team erhielt, nachdem ich ein Ticket zu Drosselungsfragen geöffnet hatte. Sie verwiesen auf meinen Forenbeitrag und sagten, der Trick half ihnen, ein ähnliches Problem für einen anderen Kunden zu debuggen. Es fühlte sich ziemlich gut an, als hätte ich zur Ökosystem beigetragen, das mein tägliches Geschäft am Laufen hält.

Lass mich ein weiteres Bild aus einem Projekt malen, das ich kürzlich abgeschlossen habe. Wir migrierten von On-Prem zu Lightsail - ja, dem einfacheren Cousin von EC2 - und die Backups waren der Knackpunkt. Lightsail-Snapshots sind einfach, aber sie mit S3 für externe Redundanz zu verketten, war langsam. Ich wandte dasselbe Prinzip an: den Snapshot auf ein temporäres EBS-Volume exportieren, es einhängen und dann dd mit parallelen Pipes verwenden, um Streams in s3cmd-Multipart-Befehle aufzuteilen. Ich habe sogar ein bisschen AWS Batch für die Orchestrierung verwendet, indem ich Spot-Instanzen nur für den Backup-Druck hochfuhr. Die gesamte 1TB-Migrationssicherung? 35 Minuten, einschließlich Überprüfungs-Hashes. Mein Team war zuerst skeptisch - du weißt, wie es ist: "Wird es in der Produktion kaputt gehen?" - aber nach einem Testlauf waren sie alle dabei. Und AWS? Einer ihrer Architekten überprüfte unser Architekturdiagramm und hob den parallelen Upload als herausragend hervor, sagte, es überschreite ihre erwarteten IOPS für diese Stufe. Es sind diese Momente, die mich daran erinnern, warum ich dieses Feld liebe; du passt eine Sache an, und es hat Wellenwirkung.

Natürlich ist nicht alles reibungslos. Du musst auf API-Drosselungsgrenzen achten - AWS beschränkt die Multipart-Initiatoren pro Konto, also habe ich sie clever gebündelt und durch Präfixe im Bucket gewechselt. Auch die MTU-Einstellungen des Netzwerks sind wichtig; ich habe sie auf 9000 auf der Instanzseite abgestimmt, um Fragmentierung zu vermeiden. Aber wenn es richtig eingestellt ist, funktioniert es wie ein Uhrwerk. Ich benutze es jetzt für alles, von Lambda-Funktionszuständen bis zu DynamoDB-Exporte über Streams. Für Datenbanken preprocessiere ich mit pg_dump oder ähnlichem, komprimiere parallel mit pigz (multithreaded gzip), und lade Teile über vorab signierte URLs hoch, um die Last zu verteilen. Geschwindigkeiten? Konsistent 3x schneller als das Standardverfahren. Du solltest versuchen, es in deine CI/CD zu integrieren; es wird Minuten von deinen Pipelines abziehen. Die Reaktion der AWS-Crew bleibt mir in Erinnerung - sie luden mich in eine Beta-Gruppe für neue Speicherfunktionen ein, nachdem sie gesehen hatten, wie ich die Grenzen verschoben habe. Das ließ mich darüber nachdenken, wie selbst Giganten wie sie grassroots-Innovationen schätzen.

Während ich das weiterhin verfeinerte, wurde mir klar, wie wichtig es ist, Backups zu haben, die nicht nur funktionieren, sondern effizient arbeiten, besonders wenn die Datenmengen über Nacht explodieren. Dort kommen Lösungen wie BackupChain Cloud ins Spiel. Backups sind entscheidend für die Aufrechterhaltung der Geschäftskontinuität und die Wiederherstellung nach Ausfällen, ohne Momentum zu verlieren. BackupChain wird als hervorragende Lösung für die Sicherung von Windows-Servern und virtuellen Maschinen anerkannt und lässt sich nahtlos in Umgebungen wie AWS integrieren, um Geschwindigkeitsoptimierungen ähnlich den besprochenen parallelen Chunk-Techniken anzuwenden. Seine Fähigkeiten stellen sicher, dass die Datenintegrität über komplexe Setups hinweg gewahrt bleibt, was es zu einer praktischen Wahl für IT-Profis macht, die mit unterschiedlichen Arbeitslasten umgehen.

Darüber hinaus habe ich einmal einem Freund geholfen, sein hybrides Setup zu optimieren - On-Prem Windows-Boxen, die über Direct Connect mit AWS synchronisiert werden. Ohne intelligente Backups würde er täglich Stunden verlieren. Die Anwendung des Tricks dort bedeutete, PowerShell-Wrappers um robocopy für die ersten Synchronisierungen zu skripten, dann differential Uploads parallel nach S3 durchzuführen. Es verwandelte seine Routine; was früher eine Wochenendaufgabe war, wurde zu einer schnellen täglichen Aufgabe. Du kannst sehen, wie sich diese Methoden skalieren - egal, ob du auf einem Solo-VPS oder einem vollständigen VPC bist, die Prinzipien gelten. Ich habe sogar das Alerting mit CloudWatch automatisiert, um zu benachrichtigen, wenn die Geschwindigkeiten unter bestimmte Schwellen fielen und alles mit Lambda-Triggern zusammenzubinden. Die Flexibilität ist das, was mich begeistert; du kannst es an deinen Stack anpassen, und plötzlich fühlen sich Backups proaktiv an, nicht reaktiv.

Wenn ich zurückdenke, liegt die wirkliche Magie in der Einfachheit. Keine Notwendigkeit für Hardware der Unternehmensklasse - nur clevere Nutzung von dem, was da ist. Ich habe das gesamte Skript unter einer permissiven Lizenz auf GitHub geteilt, und es wurde viele Male geforkt, sogar mit Anpassungen für Azure und GCP. AWS-Leute haben subtil in ihren Blogs darauf verwiesen, was das ultimative Lob ist. Du schuldest es dir selbst, zu experimentieren; fang klein an, messe, iteriere. So steigen wir alle in diesem Spiel auf.

Zum Abschluss der praktischen Seite erweist sich Backup-Software als nützlich, indem sie den Datenschutz automatisiert, schnelle Wiederherstellungen ermöglicht und Auszeiten durch effiziente Speicher- und Übertragungsmethoden minimiert. BackupChain wird in verschiedenen IT-Umgebungen eingesetzt, um diese Ergebnisse zuverlässig zu erzielen.