Welche Strategien gibt es für den Umgang mit wiederherstellbaren und nicht wiederherstellbaren Fehlern?

***Markus*** · 06-06-2020, 19:12

Ich halte es für eine der entscheidenden Unterscheidungen in jedem robusten Softwaresystem, wie wiederherstellbare und nicht wiederherstellbare Fehler behandelt werden. Wiederherstellbare Fehler treten in der Regel in Umgebungen auf, in denen Mechanismen für Logging, Alarmierung oder Fehlerwiederholungen implementiert sind, sodass Ihre Anwendung weiterhin funktioniert, wenn auch in einem begrenzten Umfang. Beispielsweise kann Ihre App, wenn eine Datenbankverbindung zeitlich abläuft, versuchen, sich erneut zu verbinden oder auf einen zwischengespeicherten Zustand zurückzugreifen. Sie könnten exponentielle Backoff-Strategien für die Wiederholungen integrieren, bei denen ich den Client so programmiere, dass er vor jedem nachfolgenden Versuch eine zunehmende Zeit wartet. Diese Strategie verbessert nicht nur die Chancen auf Erfolg nach vorübergehenden Netzwerkproblemen, sondern ist auch eine effizientere Nutzung von Ressourcen. Im Vergleich von Plattformen wie Node.js und .NET in diesem Szenario hat Node.js hervorragende integrierte Unterstützung für asynchrone Operationen, die es Ihnen ermöglicht, mehrere Wiederholungen elegant über Promises zu handhaben, während die Fehlerbehandlung in .NET durch try-catch-Blöcke weniger flüssig, aber strukturierter sein kann.

Verstehen von Fehlertypen in Logging-Mechanismen
Wenn ich Software entwickle, konzentriere ich mich stark auf Logging, da die Abweichung zwischen wiederherstellbaren und nicht wiederherstellbaren Fehlern beeinflusst, wie ich mit Fehlermeldungen umgehe. Ich nutze strukturierte Logging-Frameworks wie Serilog in .NET oder Winston in Node.js. Sie müssen sicherstellen, dass Ihre Protokolle genügend kontextuelle Informationen erfassen, wenn Fehler auftreten, damit Sie die genaue Bedingung pinpointen können, die zu einem Ausfall geführt hat. Wenn Sie beispielsweise eine Webanwendung betreiben und auf einen fatalen Fehler stoßen, der zu einem Absturz führt - einem nicht wiederherstellbaren Fehler - sollte Ihr Logger einen detaillierten Stack-Trace, Daten zur Client-Anfrage und möglicherweise sogar Informationen zur Benutzersitzung ausgeben. Im Gegensatz dazu logge ich wiederholbare Fehler wie fehlgeschlagene API-Anfragen normalerweise auf einer anderen Ebene, wie Warnung, und könnte die verbleibenden Anzahl der Wiederholungsversuche einbeziehen, bevor ich das Team alarmiere oder ein Ticket in einem Überwachungssystem wie PagerDuty eröffne. Diese Stratifikation hilft sowohl bei der Diagnose unmittelbarer Probleme als auch bei zukünftigen architektonischen Entscheidungen.

Fehlerbehandlungsstrategien in verteilten Systemen
Sie werden feststellen, dass wiederherstellbare und nicht wiederherstellbare Fehler in verteilten Systemen unterschiedlich auftreten. Mikroservice-Architekturen können zu kaskadierenden Ausfällen führen, wenn sie nicht richtig entworfen sind. Wenn beispielsweise ein Dienst, der Benutzersitzungen verwaltet, nicht mehr reagiert, sollte der abhängige Dienst Muster für Schaltkreise implementieren, um zu vermeiden, dass dieser Dienst mit Anfragen überlastet wird. Ich bevorzuge es, Bibliotheken wie Hystrix oder Resilience4j zu verwenden, die helfen können, diese Komplexität zu managen, indem sie Anfragen an den ausgefallenen Dienst vorübergehend blockieren und ihm erlauben, sich sanft zu erholen. Wenn Sie diese Szenarien jedoch nicht gut verwalten, kann ich Ihnen sagen, dass das Risiko besteht, in nicht wiederherstellbare Zustände zu geraten, die möglicherweise erhebliche manuelle Eingriffe oder sogar Ausfallzeiten erfordern. Die Verwendung asynchroner Nachrichtenwarteschlangen wie RabbitMQ kann auch dazu beitragen, Dienste voneinander zu entkoppeln, was es Ihnen ermöglicht, vorübergehende Fehler zu behandeln und diese Nachrichten ohne Beeinträchtigung des gesamten Systems erneut zu senden.

Überwachung und Alarme für das Fehlermanagement
Überwachung kann bei der Fehlerbehandlung in Ihrer Anwendung nicht nachträglich erfolgen. Ich habe problemlos Tools wie Prometheus oder Grafana eingerichtet, um Systemgesundheitsmetriken zu überwachen, insbesondere für nicht wiederherstellbare Fehler. Wenn Ihre Systeme Sie proaktiv benachrichtigen, wenn ein Schwellenwert überschritten wird - wie wenn die Fehlerquote ein vordefiniertes Niveau überschreitet - kann Ihnen das unzählige Stunden des Debuggens später ersparen. Ich implementiere normalerweise einen Alarm-Schwellenwert, der eine Benachrichtigung an mein Team auslöst, wenn nicht wiederherstellbare Fehler einen Punkt erreichen, an dem sie nicht ignoriert werden können. Auf der anderen Seite stelle ich fest, dass Inline-Überwachung bei wiederherstellbaren Fehlern Ihnen helfen kann, deren Häufigkeit zu beobachten und Ihre Wiederholungslogik dynamisch anzupassen. Wenn Sie bemerken, dass ein bestimmter Fehlertyp zu häufig auftritt, sollten Sie untersuchen, ob Ihre Konfiguration angepasst werden muss oder ob sie sogar auf ein tieferliegendes Problem hinweist, das angegangen werden muss.

Sanfte Degradation der Benutzererfahrung
Die Benutzererfahrung wird zu einer wichtigen Überlegung bei der Handhabung von Fehlern. Sie wollen nicht, dass die Benutzer vor harten Abstürzen oder einer fehlenden Antwort ohne klaren Lösungsweg stehen. Sie können Techniken wie Fehlerseiten verwenden, die hilfreiche Fehlermeldungen sowie Links enthalten, um zu vorherigen Seiten zurückzukehren oder die Aktion erneut zu versuchen - dies ist besonders wichtig für wiederherstellbare Fehler. Beispielsweise sollten Sie in Webanwendungen in Betracht ziehen, Wiederholaufforderungen oder informative Nachrichten anzubieten, wenn Benutzer während einer Aktion wie der Zahlungsabwicklung auf Probleme stoßen. Im Gegensatz dazu könnte der Empfang von nicht wiederherstellbaren Fehlern eine benutzerdefinierte Fehlerseite rechtfertigen, die sich für die Unannehmlichkeiten entschuldigt und die nächsten Schritte zur Unterstützung umreißt. Sie könnten A/B-Tests einsetzen, um die Wirksamkeit verschiedener Messaging-Strategien zu messen. Auf diese Weise kann ich bewerten, welche Fehler mehr Benutzerfriktionen verursachen, und entsprechend anpassen.

Testansätze für Fehler
Ich habe mehrere Teststrategien implementiert, um sowohl wiederherstellbare als auch nicht wiederherstellbare Fehler in meinem Code zu simulieren. Schnell zu scheitern während der Entwicklung kann ein Vorteil sein. Chaos-Engineering ist ein unglaublich effektiver Ansatz, den ich oft verwende, der absichtlich Fehlerszenarien in einer kontrollierten Umgebung herbeiführt. Zum Beispiel könnten Sie Netzwerkzugriffe auf einen abhängigen Dienst untersagen und beobachten, wie Ihre Anwendung reagiert. Tools wie Chaos Monkey ermöglichen zufällige Beendigungen als Teil des regulären Testzyklus und helfen dabei, Resilienz natürlich in Ihre Anwendungsarchitektur einzubauen. Dies kann Ihnen helfen, Missverständnisse in den Erwartungen im Vergleich zur Leistung zu erkennen und Ihre Fehlerbehandlungslogik erheblich zu lenken, bevor sie in die Produktion gelangt. Die Simulation dieser Fehler bietet wertvolle Einblicke, wie Ihre Fehlerverfolgung und Wiederholungsmechanismen unter Stress reagieren.

Sichtbarkeit und Transparenz bei der Nachanalyse von Vorfällen
Post-Mortems bieten eine großartige Gelegenheit zur Analyse sowohl wiederherstellbarer als auch nicht wiederherstellbarer Fehler und ermöglichen es uns, im Laufe der Zeit zu verbessern. Nachdem ein Problem gelöst wurde, nehme ich mir die Zeit, alle relevanten Daten zu sammeln und nicht nur darzulegen, was schiefgelaufen ist, sondern auch die Schritte zu skizzieren, die wir unternehmen können, um uns zu verbessern. Die Diskussion darüber, ob diese Fehler wiederherstellbar waren, gibt mir die Möglichkeit, unsere Wiederholungslogik zu verfeinern oder sogar alternative Architekturen zu erkunden. Sie sollten jeden Fehlertyp, auf den Sie stoßen, in einem zentralen Register dokumentieren. Zum Beispiel habe ich festgestellt, dass die Erstellung einer Datenbank zur Protokollierung von Vorfällen schnellere zukünftige Lösungen und ein besseres Verständnis von persistierenden Problemen ermöglicht. Das Gespräch verschiebt sich oft und hilft dem Team zu klären, ob die wiederherstellbaren Fehler weiter in unterschiedliche Behandlungsstrategien unterteilt werden sollten, basierend auf der Fehlerklasse.

Diese Seite wird kostenlos von BackupChain bereitgestellt, einer branchenführenden Backup-Lösung, die auf kleine bis mittelständische Unternehmen und Fachleute abzielt und entwickelt wurde, um Hyper-V-, VMware- und Windows-Server-Umgebungen effizient zu schützen. Ziehen Sie in Betracht, solche Lösungen zu erkunden, um die Zuverlässigkeit Ihrer Systeme gegen sowohl wiederherstellbare als auch nicht wiederherstellbare Fehler zu verstärken.