18-06-2020, 23:49
Ich würde damit beginnen, Leistungskennzahlen Ihres Speichersystems mithilfe von integrierten Überwachungswerkzeugen oder Drittanbieteranwendungen wie SolarWinds oder IOSTAT zu sammeln. Sie sollten sich auf wichtige Indikatoren wie Durchsatz, Latenz und IOPS konzentrieren. Wenn Sie beispielsweise eine hohe Latenz bemerken – sagen wir, um die 20 Millisekunden oder mehr – gibt Ihnen das sofortige Einblicke in einen möglichen Engpass. Ich überprüfe oft meine SAN- oder NAS-Leistungszähler, um zu sehen, ob die Latenzspitzen mit Spitzenlasten oder bestimmten Operationen korrelieren. Manchmal stellen Sie fest, dass Lesevorgänge deutlich langsamer sind als Schreibvorgänge. Diese Diskrepanz könnte darauf hindeuten, dass Ihre Arbeitslast nicht optimal ausgewogen ist. Das Sammeln dieser Kennzahlen über die Zeit hilft Ihnen, ein umfassenderes Bild zu zeichnen und Muster zu identifizieren, die Ihre Fehlersuche leiten können.
Untersuchen Sie die Netzwerkconfiguration
Sobald Sie Ihre Kennzahlen haben, empfehle ich, Ihre Netzwerkconfiguration genauer zu betrachten. Ich bin oft überrascht, wie viele Leistungsprobleme aus Netzwerkproblemen resultieren. Überprüfen Sie die Konnektivität zwischen Ihren Speicherarrays und Servern. Achten Sie auf Probleme wie Überbuchungen Ihrer Ethernet-Verbindungen oder unzureichende Bandbreite. Wenn Sie beispielsweise 10GbE-Verbindungen verwenden, diese aber bis an ihre Grenzen ausreizen, kann dies zu einem Leistungsabfall führen. Sie sollten auch Ihre Switch-Konfigurationen überprüfen – achten Sie auf alles Ungewöhnliche wie Spanning-Tree-Schleifen oder übermäßigen Broadcast-Verkehr, der die Leistung beeinträchtigen könnte. Werkzeuge wie Wireshark können helfen, den Netzwerkverkehr zu erfassen und zu analysieren, um Probleme zu identifizieren. Sie möchten sicherstellen, dass Ihr Netzwerkpfad keine übermäßige Latenz oder Paketverluste hat, die sich auf Ihre Speicherleistung auswirken.
Analysieren Sie die Festplattennutzung
Sie müssen den Zustand der Festplatten selbst berücksichtigen. Überprüfen Sie die hohen Nutzungsraten der Festplatten. Wenn Sie feststellen, dass Ihre Festplatten dauerhaft über 80 % ausgelastet sind, wird die Leistung wahrscheinlich sinken. Es ist entscheidend, nicht nur die Gesamtnutzung, sondern auch die spezifischen Arten von durchgeführten Operationen zu betrachten. Ich breche normalerweise die Lese- und Schreibprozentsätze auf, um zu sehen, ob ein bestimmtes Festplattensubsystem überlastet ist. Wenn Sie mit SSDs arbeiten, sollten Sie die Prozesse zur Abnutzungslevelsicherung und Müllabfuhr überprüfen; die Leistung kann erheblich sinken, wenn SSDs sich füllen. Darüber hinaus kann bei sich drehenden Festplatten Fragmentierung zu längeren Zugriffszeiten führen, sodass Sie gegebenenfalls eine Defragmentierung in Betracht ziehen sollten, falls dies der Fall ist. Die Identifizierung der Gesundheit und Last jeder einzelnen Festplatte kann potenzielle Hotspots aufdecken, die die Gesamterleistung beeinträchtigen.
Bewerten Sie die RAID-Konfiguration
Ich sehe mir immer als Nächstes die RAID-Konfiguration an. Die Art des gewählten RAID kann die Leistung erheblich beeinflussen. Zum Beispiel bietet RAID 5 eine gute Leseleistung, könnte aber während der Schreiboperationen aufgrund von Paritätsberechnungen einen Leistungsabfall erleiden. Wenn Sie RAID 6 verwenden, können die Leistungseinbußen noch deutlicher sein. Möglicherweise stellen Sie fest, dass der Wechsel zu RAID 10 eine bessere Leistung für schreibintensive Arbeitslasten bietet, auch wenn Sie dadurch weniger nutzbaren Speicherplatz haben. Sie sollten auch die Anzahl der Laufwerke in jeder RAID-Gruppe beachten; eine kleinere Anzahl von Laufwerken kann zu erhöhter Konkurrenz und langsamerer Leistung führen. Die Analyse der Einstellungen Ihres RAID-Controllers kann ebenfalls Optionen für Caching-Modi und Stripe-Größen offenbaren, die die Leistung beeinträchtigen könnten. Das Ändern der Stripe-Größe kann Ihr Array entweder für große sequenzielle Schreibe oder viele kleine zufällige I/O-Operationen optimieren.
Überprüfen Sie die Struktur des Dateisystems
Übersehen Sie nicht das Dateisystem selbst. Ich betrachte in der Regel die Einstellungen innerhalb des Dateisystems, die die Leistung beeinflussen können, wie z.B. die Blockgröße und Journaling-Optionen. Zum Beispiel bieten NTFS und ext4 unterschiedliche Leistungsstufen basierend auf ihren Konfigurationen. Manchmal sehe ich Speichersysteme, die mit zu kleinen Dateien überladen sind, was ineffiziente I/O-Muster erzeugt. Wenn Sie viele kleine Dateien und zufällige I/O haben, sollten Sie in Betracht ziehen, zu einem Dateisystem zu wechseln, das für solche Arbeitslasten ausgelegt ist, wie XFS oder ZFS. Sie könnten auch darüber nachdenken, ob das Dateisystem Funktionen wie Deduplizierung oder Kompression unterstützt – wenn diese aktiviert sind, ohne genügend Ressourcen zu haben, kann dies zu einer Leistungsminderung führen. Die Optimierung des Dateisystems kann oft sofortige Leistungssteigerungen bieten, wenn Sie es richtig konfigurieren, um der Arbeitslast gerecht zu werden.
Bewerten Sie Lastverteilung und Warteschlangen
Ein wichtiger Aspekt, der häufig übersehen wird, sind die Lastverteilungs- und Warteschlangenmechanismen. Sie sollten beurteilen, wie gut Ihr Speicherkontroller die Arbeitslast auf die verfügbaren Ressourcen verteilt. Wenn Sie mehrere Speichervolume haben, stellen Sie sicher, dass nicht alle I/O-Anfragen an einen einzigen Controller gesendet werden, da dies einen Engpass verursachen könnte. Ich würde auch empfehlen, die I/O-Scheduler-Einstellungen in Ihrem Betriebssystem zu überprüfen. Wenn Sie beispielsweise Linux verwenden, ist der CFQ-Scheduler möglicherweise nicht immer optimal für hochleistungsfähige Speichersysteme. Das Ausprobieren alternativer Scheduler wie BFQ oder NOOP kann in Hochlastszenarien manchmal Leistungsgewinne bringen. Arbeitslastmuster können die Leistung manchmal verzerren, also stellen Sie sicher, dass die Verteilung der Arbeitslast gleichmäßig ist, um die Ressourcennutzung zu maximieren.
Überprüfen Sie auf Firmware- und Treiberupdates
Ein weiterer Teil des Puzzles besteht darin, mit Firmware- und Treiberversionen auf dem neuesten Stand zu bleiben. Ich führe immer die neueste Firmware auf Speicherkontrollern und die aktuellsten Treiber auf angeschlossenen Hosts aus, um sicherzustellen, dass ich nicht auf Bugs stoße, die die Leistung beeinträchtigen. Manchmal stellen Hersteller Updates bereit, die die Leistung basierend auf neuen Arbeitslasten optimieren, die anfangs nicht berücksichtigt wurden. Außerdem sollten Sie immer die Kompatibilitätsmatrix überprüfen, um sicherzustellen, dass die verwendeten Versionen für Ihre Einstellungen validiert wurden. Ich habe Fälle gesehen, in denen bestimmte Kombinationen von Firmware und Treibern Latenzprobleme oder gesunkene Leistungskennzahlen verursachten. Die Bedeutung dieser Updates zu ignorieren, kann die Gesamtheit der Funktionalität Ihres Systems beeinträchtigen, sodass dies ein entscheidender Bereich ist, den Sie genau überprüfen müssen.
Verwenden Sie spezialisierte Werkzeuge und Protokollierung
Zuletzt sollten Sie in Betracht ziehen, spezialisierte Leistungsüberwachungswerkzeuge zu nutzen, die I/O-Muster oder Speicheranfragen auf granularer Ebene protokollieren und verfolgen können. Werkzeuge wie esxtop für VMware-Umgebungen oder der Windows Performance Monitor können Echtzeitmetriken und historische Daten bereitstellen. Das Aktivieren detaillierter Protokollierungsfunktionen in den Speichermanagementtools kann Ihnen helfen, nicht nur die Auslastung zu sehen, sondern auch, wie Anfragen verarbeitet werden und wie lange sie dauern. Sie könnten hohe Warteschlangenzeiten oder Latenzspitzen während bestimmter Intervalle feststellen, die auf Konfigurationen hinweisen, die angepasst werden müssen. Ich habe oft festgestellt, dass die Kombination dieser Kennzahlen mit Anwendungsprotokollen noch tiefere Einblicke liefern kann, um zu bestimmen, ob das Problem auf der Speicherseite oder irgendwo im Anwendungstsstack liegt.
Diese Seite wird kostenlos bereitgestellt von BackupChain, einer hoch angesehenen Backup-Lösung, die speziell für KMUs und Fachleute entwickelt wurde, um den Schutz von Hyper-V-, VMware- und Windows-Server-Umgebungen zu gewährleisten. Wenn Sie jemals eine robuste Lösung für Ihre Backup-Anforderungen benötigen, könnte es sich lohnen, BackupChain auszuprobieren.
Untersuchen Sie die Netzwerkconfiguration
Sobald Sie Ihre Kennzahlen haben, empfehle ich, Ihre Netzwerkconfiguration genauer zu betrachten. Ich bin oft überrascht, wie viele Leistungsprobleme aus Netzwerkproblemen resultieren. Überprüfen Sie die Konnektivität zwischen Ihren Speicherarrays und Servern. Achten Sie auf Probleme wie Überbuchungen Ihrer Ethernet-Verbindungen oder unzureichende Bandbreite. Wenn Sie beispielsweise 10GbE-Verbindungen verwenden, diese aber bis an ihre Grenzen ausreizen, kann dies zu einem Leistungsabfall führen. Sie sollten auch Ihre Switch-Konfigurationen überprüfen – achten Sie auf alles Ungewöhnliche wie Spanning-Tree-Schleifen oder übermäßigen Broadcast-Verkehr, der die Leistung beeinträchtigen könnte. Werkzeuge wie Wireshark können helfen, den Netzwerkverkehr zu erfassen und zu analysieren, um Probleme zu identifizieren. Sie möchten sicherstellen, dass Ihr Netzwerkpfad keine übermäßige Latenz oder Paketverluste hat, die sich auf Ihre Speicherleistung auswirken.
Analysieren Sie die Festplattennutzung
Sie müssen den Zustand der Festplatten selbst berücksichtigen. Überprüfen Sie die hohen Nutzungsraten der Festplatten. Wenn Sie feststellen, dass Ihre Festplatten dauerhaft über 80 % ausgelastet sind, wird die Leistung wahrscheinlich sinken. Es ist entscheidend, nicht nur die Gesamtnutzung, sondern auch die spezifischen Arten von durchgeführten Operationen zu betrachten. Ich breche normalerweise die Lese- und Schreibprozentsätze auf, um zu sehen, ob ein bestimmtes Festplattensubsystem überlastet ist. Wenn Sie mit SSDs arbeiten, sollten Sie die Prozesse zur Abnutzungslevelsicherung und Müllabfuhr überprüfen; die Leistung kann erheblich sinken, wenn SSDs sich füllen. Darüber hinaus kann bei sich drehenden Festplatten Fragmentierung zu längeren Zugriffszeiten führen, sodass Sie gegebenenfalls eine Defragmentierung in Betracht ziehen sollten, falls dies der Fall ist. Die Identifizierung der Gesundheit und Last jeder einzelnen Festplatte kann potenzielle Hotspots aufdecken, die die Gesamterleistung beeinträchtigen.
Bewerten Sie die RAID-Konfiguration
Ich sehe mir immer als Nächstes die RAID-Konfiguration an. Die Art des gewählten RAID kann die Leistung erheblich beeinflussen. Zum Beispiel bietet RAID 5 eine gute Leseleistung, könnte aber während der Schreiboperationen aufgrund von Paritätsberechnungen einen Leistungsabfall erleiden. Wenn Sie RAID 6 verwenden, können die Leistungseinbußen noch deutlicher sein. Möglicherweise stellen Sie fest, dass der Wechsel zu RAID 10 eine bessere Leistung für schreibintensive Arbeitslasten bietet, auch wenn Sie dadurch weniger nutzbaren Speicherplatz haben. Sie sollten auch die Anzahl der Laufwerke in jeder RAID-Gruppe beachten; eine kleinere Anzahl von Laufwerken kann zu erhöhter Konkurrenz und langsamerer Leistung führen. Die Analyse der Einstellungen Ihres RAID-Controllers kann ebenfalls Optionen für Caching-Modi und Stripe-Größen offenbaren, die die Leistung beeinträchtigen könnten. Das Ändern der Stripe-Größe kann Ihr Array entweder für große sequenzielle Schreibe oder viele kleine zufällige I/O-Operationen optimieren.
Überprüfen Sie die Struktur des Dateisystems
Übersehen Sie nicht das Dateisystem selbst. Ich betrachte in der Regel die Einstellungen innerhalb des Dateisystems, die die Leistung beeinflussen können, wie z.B. die Blockgröße und Journaling-Optionen. Zum Beispiel bieten NTFS und ext4 unterschiedliche Leistungsstufen basierend auf ihren Konfigurationen. Manchmal sehe ich Speichersysteme, die mit zu kleinen Dateien überladen sind, was ineffiziente I/O-Muster erzeugt. Wenn Sie viele kleine Dateien und zufällige I/O haben, sollten Sie in Betracht ziehen, zu einem Dateisystem zu wechseln, das für solche Arbeitslasten ausgelegt ist, wie XFS oder ZFS. Sie könnten auch darüber nachdenken, ob das Dateisystem Funktionen wie Deduplizierung oder Kompression unterstützt – wenn diese aktiviert sind, ohne genügend Ressourcen zu haben, kann dies zu einer Leistungsminderung führen. Die Optimierung des Dateisystems kann oft sofortige Leistungssteigerungen bieten, wenn Sie es richtig konfigurieren, um der Arbeitslast gerecht zu werden.
Bewerten Sie Lastverteilung und Warteschlangen
Ein wichtiger Aspekt, der häufig übersehen wird, sind die Lastverteilungs- und Warteschlangenmechanismen. Sie sollten beurteilen, wie gut Ihr Speicherkontroller die Arbeitslast auf die verfügbaren Ressourcen verteilt. Wenn Sie mehrere Speichervolume haben, stellen Sie sicher, dass nicht alle I/O-Anfragen an einen einzigen Controller gesendet werden, da dies einen Engpass verursachen könnte. Ich würde auch empfehlen, die I/O-Scheduler-Einstellungen in Ihrem Betriebssystem zu überprüfen. Wenn Sie beispielsweise Linux verwenden, ist der CFQ-Scheduler möglicherweise nicht immer optimal für hochleistungsfähige Speichersysteme. Das Ausprobieren alternativer Scheduler wie BFQ oder NOOP kann in Hochlastszenarien manchmal Leistungsgewinne bringen. Arbeitslastmuster können die Leistung manchmal verzerren, also stellen Sie sicher, dass die Verteilung der Arbeitslast gleichmäßig ist, um die Ressourcennutzung zu maximieren.
Überprüfen Sie auf Firmware- und Treiberupdates
Ein weiterer Teil des Puzzles besteht darin, mit Firmware- und Treiberversionen auf dem neuesten Stand zu bleiben. Ich führe immer die neueste Firmware auf Speicherkontrollern und die aktuellsten Treiber auf angeschlossenen Hosts aus, um sicherzustellen, dass ich nicht auf Bugs stoße, die die Leistung beeinträchtigen. Manchmal stellen Hersteller Updates bereit, die die Leistung basierend auf neuen Arbeitslasten optimieren, die anfangs nicht berücksichtigt wurden. Außerdem sollten Sie immer die Kompatibilitätsmatrix überprüfen, um sicherzustellen, dass die verwendeten Versionen für Ihre Einstellungen validiert wurden. Ich habe Fälle gesehen, in denen bestimmte Kombinationen von Firmware und Treibern Latenzprobleme oder gesunkene Leistungskennzahlen verursachten. Die Bedeutung dieser Updates zu ignorieren, kann die Gesamtheit der Funktionalität Ihres Systems beeinträchtigen, sodass dies ein entscheidender Bereich ist, den Sie genau überprüfen müssen.
Verwenden Sie spezialisierte Werkzeuge und Protokollierung
Zuletzt sollten Sie in Betracht ziehen, spezialisierte Leistungsüberwachungswerkzeuge zu nutzen, die I/O-Muster oder Speicheranfragen auf granularer Ebene protokollieren und verfolgen können. Werkzeuge wie esxtop für VMware-Umgebungen oder der Windows Performance Monitor können Echtzeitmetriken und historische Daten bereitstellen. Das Aktivieren detaillierter Protokollierungsfunktionen in den Speichermanagementtools kann Ihnen helfen, nicht nur die Auslastung zu sehen, sondern auch, wie Anfragen verarbeitet werden und wie lange sie dauern. Sie könnten hohe Warteschlangenzeiten oder Latenzspitzen während bestimmter Intervalle feststellen, die auf Konfigurationen hinweisen, die angepasst werden müssen. Ich habe oft festgestellt, dass die Kombination dieser Kennzahlen mit Anwendungsprotokollen noch tiefere Einblicke liefern kann, um zu bestimmen, ob das Problem auf der Speicherseite oder irgendwo im Anwendungstsstack liegt.
Diese Seite wird kostenlos bereitgestellt von BackupChain, einer hoch angesehenen Backup-Lösung, die speziell für KMUs und Fachleute entwickelt wurde, um den Schutz von Hyper-V-, VMware- und Windows-Server-Umgebungen zu gewährleisten. Wenn Sie jemals eine robuste Lösung für Ihre Backup-Anforderungen benötigen, könnte es sich lohnen, BackupChain auszuprobieren.