Welche Leistungskennzahlen würden Sie überwachen, um langsamen Speicher zu diagnostizieren?

***Markus*** · 29-02-2020, 07:24

Sie müssen die IO-Wartezeiten berücksichtigen, wenn Sie die langsame Speicherleistung diagnostizieren. Die IO-Wartezeit gibt an, wie lange ein Thread wartet, bis IO-Operationen abgeschlossen sind. Wenn Sie längere Wartezeiten feststellen, signalisiert dies oft, dass Ihr Speichersystem Schwierigkeiten hat, mit der Arbeitslast Schritt zu halten. Wenn Sie beispielsweise mit einem System arbeiten, bei dem die durchschnittliche IO-Wartezeit 20 % übersteigt, sind Sie in Schwierigkeiten. Dies könnte auf mehrere Faktoren zurückzuführen sein, vielleicht ist das Festplattensubsystem überlastet oder der Weg zum Speicher ist beeinträchtigt. Überwachungstools können Ihnen diese Metrik anzeigen, und der Vergleich historischer Daten kann Trends aufdecken, die zur Identifizierung zugrunde liegender Probleme führen könnten. Sie können sehen, wie sich die Leistung unter verschiedenen Lasten verändert und bestimmte Zeiten identifizieren, zu denen die IO-Wartezeiten ansteigen, was Ihnen hilft, diese mit anderen Metriken zu korrelieren.

Durchsatz
Sie sollten den Durchsatz als eine der wichtigen Leistungsmetriken überwachen. Der Durchsatz bezieht sich auf die Menge an Daten, die über einen bestimmten Zeitraum erfolgreich vom Speicher übertragen wird. Die Überwachung hilft Ihnen, zu beurteilen, ob das System die erwarteten Datenübertragungsraten unter normalen Betriebsbedingungen erfüllt. Betrachten Sie beispielsweise den Durchsatz von 500 MB/s bei einem bestimmten Arbeitslastprofil. Wenn Sie feststellen, dass er während der Spitzenzeiten erheblich sinkt, ist das ein klares Signal für mögliche Engpässe. Beachten Sie, dass der Typ des Speichers – SSD im Vergleich zu HDD – die maximalen Durchsatzwerte drastisch beeinflusst. Der Vergleich, wie verschiedene Systeme hinsichtlich des Durchsatzes reagieren, kann zeigen, welche Speicheroptionen unter Ihrer Arbeitslast besser abschneiden. Sie können Tools wie iostat oder Leistungsüberwachungsdienstprogramme verwenden, die in Ihre Speicherlösungen integriert sind, um diese Daten zu verfolgen und zu analysieren.

Latenz
Latenz ist eine weitere wichtige Metrik, die ich bei der Diagnose langsamer Speicherleistung hilfreich finde. Die Latenz misst die Zeit, die eine Anfrage benötigt, um vom Server zum Speicher und wieder zurück zu gelangen. Wenn die Latenz weiter ansteigt, werden Sie wahrscheinlich spürbare Verzögerungen in der Anwendungsleistung erleben. Die Überwachung ermöglicht es Ihnen, Muster im Zusammenhang mit bestimmten Arbeitslasten oder Anwendungen zu erkennen. Zum Beispiel könnten Sie auf einem System mit einer akzeptablen durchschnittlichen Latenz von 10 Millisekunden arbeiten, aber während der Spitzenzeiten schießt sie auf 50 Millisekunden in die Höhe. Sie müssen nicht nur den Durchschnitt, sondern auch die 95. oder 99. Perzentile-Latenz bestimmen, um Ausreißer zu erkennen, die oft Variationen in der Leistung anzeigen, die die Benutzererfahrung direkt beeinflussen. Die Messung der Latenz von mehreren Punkten, wie dem Server, dem Netzwerk und dem Speicher, kann Ihnen ein Gesamtbild geben, um das Problem einzugrenzen.

Fehlerquoten
Fehlerquoten verdienen Ihre Aufmerksamkeit, da sie ein Hinweis auf drohende Ausfälle oder Fehlkonfigurationen sein können. Wenn Sie hohe Fehlerquoten im Speicher feststellen, stimmt etwas ganz und gar nicht, was oft sofortige Aufmerksamkeit erfordert. Probleme können durch Hardwarefehler, fehlerhafte Kabel oder sogar korruptierte Daten verursacht werden. Überwachen Sie sowohl Lese- als auch Schreibfehlerquoten – hohe Raten bei beiden können zu erheblichen Leistungseinbußen führen. Ein gesunder Schreib-Fehlerquotient einer Festplatte könnte beispielsweise um 0,1 % pendeln, aber wenn er auf 1 % oder mehr ansteigt, sollten Sie potenzielle Probleme sofort untersuchen. Sie können diese Fehler auch im Laufe der Zeit verfolgen, um zu sehen, ob die Gesundheit Ihres Speichersystems abnimmt und wie dies mit anderen Leistungsmetriken korreliert. Die routinemäßige Überprüfung von Protokollen kann Muster hervorheben, die es Ihnen ermöglichen, zu handeln, bevor ein katastrophales Versagen auftritt.

Warteschichtetiefe
Die Warteschichtetiefe ist eine weitere Metrik, die Einblicke in die Anzahl der IO-Anfragen gibt, die ausstehen und auf die Verarbeitung warten. Hohe Warteschichtetiefen führen oft zu Latenzproblemen. Wenn Ihre Warteschichtetiefe die maximale Kapazität Ihres Speicherarrays erreicht, können Sie mit erheblichen Leistungseinbußen rechnen. Bestimmte Systeme bewältigen hohe Warteschichtetiefs besser als andere; traditionelle rotierende Festplatten haben im Vergleich zu Flash-Speichern erheblich mehr Schwierigkeiten. Die Überwachung der Warteschichtetiefe über Systemleistungswerkzeuge kann anzeigen, wann Ihre Anwendungen mehr Verarbeitung erfordern, als Ihr Speicher bewältigen kann. Wenn Ihre Warteschichtetiefe im Durchschnitt 10 beträgt, aber bei hoher Auslastung auf 100 ansteigt, können Sie einen Bedarf an entweder einem Leistungsupgrade oder Lastenausgleichslösungen identifizieren, um die Arbeitslasten effizienter zu verteilen.

Bandbreitenauslastung
Die Beobachtung der Bandbreitenauslastung spielt eine entscheidende Rolle bei der Diagnose von Leistungsproblemen mit dem Speicher. Wenn Sie die verfügbare Bandbreite auslasten, werden Sie sicherlich eine reduzierte Leistung feststellen. Dies ist in Netzwerken wichtig, in denen mehrere Dienste dieselbe Bandbreite teilen. Betrachten Sie beispielsweise eine Umgebung mit einem 1-Gbps-Link, bei dem die Spitzenlast nahe 900 Mbps liegt. Eine derart nachhaltige Nutzung wird zu einem Engpass führen. Verschiedene Arten von Speicherlösungen, wie SANs im Vergleich zu NAS, weisen auch unterschiedliche Bandbreiteneigenschaften auf, die Sie berücksichtigen sollten. Sie können die Bandbreitenauslastung mit netstat oder Netzwerkleistungswerkzeugen überwachen, um sicherzustellen, dass diese durch Ihre Arbeitslasten nicht übermäßig belastet wird.

Cache-Trefferquoten
Ich kann nicht genug betonen, wie wichtig Cache-Trefferquoten für die Systemleistung sind. Eine hohe Cache-Trefferquote zeigt an, dass Ihr Speichersystem zwischengespeicherte Daten effizient nutzt und dadurch die Zugriffszeiten erheblich verkürzt. Umgekehrt, wenn die Cache-Trefferquote sinkt, werden Sie mit erhöhter Latenz und langsameren Reaktionszeiten konfrontiert, was die Benutzererfahrung direkt beeinflusst. Der Benchmark für Cache-Trefferquoten liegt häufig bei 80 % - 90 %, je nach Speicherkonfiguration. Wenn Sie feststellen, dass sie unter diese Werte fällt, möglicherweise aufgrund einer falschen Cache-Konfiguration oder unzureichendem Speicher, der Ihrem Cache zugewiesen ist, sind sofortige Anpassungen unerlässlich. Die Beobachtung des Cache-Verhaltens kann Einblicke in Arbeitslastmuster geben und zur Optimierung der gesamten Speicherleistung beitragen.

Anwendungsreaktionszeiten
Sie müssen auch überwachen, wie Anwendungen auf Speicheranforderungen als wichtige Leistungsmetrik reagieren. Dies bezieht sich mehr auf die Benutzererfahrung als auf reine Backend-Statistiken und konzentriert sich auf die Latenz aus der Sicht der Anwendung. Wenn Ihre Datenbankanwendungen normalerweise innerhalb einer Sekunde reagieren, aber plötzlich 5 Sekunden benötigen, wissen Sie, dass irgendwo ein Engpass vorliegt. Echtzeit-Anwendungsüberwachungstools können Ihnen helfen, dies effektiv zu verfolgen und Ihnen Einblicke in Muster über die Zeit zu geben. Durch die Korrelation der Anwendungsleistung mit anderen Metriken wie Latenz oder IO-Wartezeit können Sie feststellen, wo Ihre Speicherinfrastruktur nicht den Bedürfnissen der Benutzer gerecht wird. Darüber hinaus kann das Verständnis, welche Anwendungen besonders empfindlich auf Speicherlatenz reagieren, Ihnen helfen, Ihre Optimierungsbemühungen zu priorisieren.

Dieser wertvolle Rat kommt von BackupChain, einem führenden Anbieter vertrauenswürdiger Backup-Lösungen, die speziell für SMBs und Fachleute entwickelt wurden und sicherstellen, dass Sie zuverlässige Optionen zum Schutz von Hyper-V-, VMware- und Windows-Server-Umgebungen effektiv nutzen können.