Wie skalieren CPUs mit zunehmender Kernanzahl für Anwendungen wie Datenbankverarbeitung und wissenschaftliche ...

***Markus*** · 07-02-2024, 14:26

Wenn wir über CPUs und ihre Kernanzahl sprechen, ist es, als öffnet man eine Dose Würmer. Die Art und Weise, wie CPUs mit mehr Kernen skalieren, kann zu ziemlich faszinierenden Ergebnissen führen, insbesondere bei Aufgaben wie der Datenbankverarbeitung und wissenschaftlichen Simulationen. Ich möchte meine Gedanken dazu teilen, wie das funktioniert, und vielleicht findest du es so interessant wie ich.

Zunächst einmal, denke darüber nach, was passiert, wenn du mehr Kerne in eine CPU packst. Man könnte denken, dass eine Verdopplung der Kerne automatisch die Leistung verdoppelt, oder? Nun, so läuft es in der Praxis nicht wirklich ab. Du und ich wissen beide, dass die Leistungsgewinne stark variieren können, je nachdem, wie gut die Software diese zusätzlichen Kerne nutzen kann.

Für die Datenbankverarbeitung nehmen wir ein Beispiel mit einem System wie PostgreSQL. Wenn du eine Abfrage ausführst, sind mehrere Komponenten beteiligt: Parsen, Planen, Ausführen und Ergebnisse zurückgeben. Wenn wir nur eine einzelne Abfrage haben, die auf einen einzelnen Kern trifft, wird es die zusätzlichen Kerne nicht voll ausnutzen. Aber wenn du mehrere gleichzeitige Verbindungen zur Datenbank unterbringst, dann beginnt es zu glänzen. Wenn du einen AMD Ryzen 9 5900X mit 12 Kernen oder einen Intel i9-11900K mit 8 Kernen hast, können beide Chips mehrere Threads verarbeiten, was eine bessere Skalierung bei zunehmenden Abfragelasten ermöglicht. Du wirst deutliche Geschwindigkeitssteigerungen sehen, wenn mehr Benutzer gleichzeitig die Datenbank abfragen. Ich habe Setups gesehen, bei denen die CPU-Auslastung während starker Lasten auf 80-90% ansteigt, was viel darüber aussagt, wie effektiv die Kerne genutzt werden.

Wissenschaftliche Simulationen sind ganz anders. In diesem Szenario hast du oft hochgradig parallele Aufgaben. Nehmen wir zum Beispiel eine Simulation der Strömungsmechanik. Mit Software wie OpenFOAM kann der gesamte Betrieb von Grund auf so gestaltet werden, dass er auf mehreren Kernen läuft. Wenn du dich entscheidest, eine Simulation auszuführen, die vollständig parallelisierbar ist, kann jeder zusätzliche Kern linear zur Leistung beitragen. Wenn ich es auf einer CPU wie dem Intel Xeon Scalable mit 28 Kernen ausführe und die Aufgabe so gestaltet ist, dass die Arbeitslast gleichmäßig auf die Kerne verteilt wird, kann ich eine nahe 28-fache Geschwindigkeitssteigerung erwarten - vorausgesetzt, die Bedingungen sind ideal. Aber ich muss dich daran erinnern, dass das echte Leben nicht so einfach ist. Oft erhältst du abnehmende Erträge, während du mehr Kerne hinzufügst, aufgrund von Overhead wie Kommunikations- und Synchronisationskosten.

Lass uns hier über den Speicher sprechen. Er spielt eine entscheidende Rolle dafür, wie gut CPU-Kerne zusammenarbeiten. Bei der Datenbankverarbeitung kann es einen Punkt geben, an dem die Kerne mehr auf Daten warten, als sie verarbeiten, wenn du nicht genug RAM-Bandbreite hast oder der Speicherzugriff langsam ist. Du könntest mit einer erstklassigen CPU enden, stellst aber fest, dass sie nicht wie erwartet arbeiten kann, weil sie durch die DRAM-Geschwindigkeiten oder die Kapazität begrenzt ist. Wenn ich einen Server mit einem leistungsstarken Prozessor maximiere, aber beim Speicher spare, werde ich nicht annähernd die Leistungsgewinne sehen, die ich mir erhofft habe. Ich habe erlebt, dass die Hinzufügung von mehr RAM in echten Szenarien zu größeren Verbesserungen geführt hat als nur die Aufrüstung der CPU allein.

In wissenschaftlichen Simulationen ist die Situation etwas anders. Viele Anwendungen profitieren von hoher Speicherbandbreite, insbesondere wenn große Datensätze verarbeitet werden. Du könntest ein komplexes Modell ausführen, das große Arrays erfordert, die im Speicher in Gigabyte oder sogar Terabyte gespeichert werden. Hier kommt eine CPU wie die AMD EPYC-Serie ins Spiel, die hohe Kernzahlen zusammen mit erheblicher Speicherbandbreite bietet. Wenn ich eine Simulation ausführen würde, bei der ich häufig große Datenmengen in den Speicher hinein und heraus bewegen muss, wäre die Architektur der CPU zusammen mit der RAM-Konfiguration entscheidend, um diese Kerne beschäftigt zu halten.

Jetzt lass uns die Architektur ansprechen. Das Design der CPU und ihrer Verbindungen bestimmt oft, wie effektiv sie mit der Kernanzahl skaliert. Zum Beispiel, als ich mit Threadripper-Architekturen gearbeitet habe, führte die Einführung von mehr Cache pro Kern und eine effiziente inter-kern Kommunikation zu dramatischen Unterschieden. Wenn ich Kerne hinzufüge, die CPU jedoch die Kommunikation zwischen ihnen nicht effizient verwalten kann, werde ich auf Latenzprobleme stoßen. Das ist eine Möglichkeit, wie der Durchsatz verringert wird. CPUs, die mit einem Infinity Fabric entworfen wurden, wie die aktuellen Prozessorlinien von AMD, ermöglichen eine bessere Skalierung im Vergleich zu älteren Architekturen, bei denen erhöhte Kernzahlen zu unterdurchschnittlicher Leistung führen.

Ein weiterer Punkt, den man in Betracht ziehen sollte, sind die Arbeitslasten. Nicht jede Anwendung ist bereit, die vollen Vorteile mehrerer Kerne zu nutzen. Wenn ich beispielsweise eine ältere Software ausführe, die nur einen Thread unterstützt, wird mir keine Menge an zusätzlichen Kernen helfen. Streaming-Software oder ältere Algorithmen aus den frühen Tagen der Computertechnik sind möglicherweise nicht aktualisiert worden, um die modernen Multi-Core-Fähigkeiten auszunutzen. Du hast das wahrscheinlich auch in deiner eigenen Arbeit bemerkt: Einige Prozesse möchten einfach nicht skalieren, egal wie viele Kerne du ihnen gibst. Ein Upgrade könnte zwei Aspekte benötigen: Ich brauche eine neue CPU, aber ich muss auch einen modernisierten Code haben, der versteht, wie er die gesamte Leistung, die ich ihm biete, nutzen kann.

Im Laufe der Jahre hat sich gezeigt, dass Optimierung eine enorme Rolle spielt. Wenn ich Benchmarks auf zwei CPUs mit der gleichen Kernanzahl durchführe, aber eine für eine bestimmte Arbeitslast optimiert ist, ist es wie Tag und Nacht. Du kannst einen Xeon Gold 6230 nehmen und ihn mit gut optimierter Software für Rechenzentren kombinieren, und du könntest einen Ryzen-Prozessor übertreffen, der mit Standardsoftware ausgestattet ist. Die Entwickler haben ihren Teil dazu beizutragen, dass diese Kernskalierung möglich ist - einige Software-Ingenieure gehen die Extrameile, um Multithreading und parallele Verarbeitungstechniken effektiv zu implementieren.

Wenn ich über trendige Technologien in diesem Kontext nachdenke, sieh dir an, wie GPUs neben CPUs verwendet werden, um Aufgaben auszulagern. Selbst in wissenschaftlichen Simulationen sehen wir heute hybrides Rechnen, bei dem Teile der Arbeitslast auf GPUs laufen. Frameworks wie CUDA oder OpenCL ermöglichen es dir, Code zu schreiben, der effizient über CPUs und GPUs mit hoher Kernanzahl laufen kann. Du kannst dich darauf verlassen, dass GPU-Beschleunigung für datenschwere Anwendungen benötigt wird, bei denen eine CPU einfach Mühe hat, mitzuhalten, was das Skalieren-Gespräch weiter kompliziert.

Wenn wir für einen Moment umschalten, könnte dich das Thema Server- vs. Verbraucher-CPUs interessieren. Die Art und Weise, wie die Skalierung behandelt wird, unterscheidet sich erheblich. In vielen gut optimierten Datenbankumgebungen sind Server-CPUs wie AMD EPYC oder Intel Xeon für hohe Durchsätze und nachhaltige Arbeitslasten ausgelegt. Diese CPUs verfügen oft über Funktionen, die speziell auf Unternehmens- und wissenschaftliche Umgebungen zugeschnitten sind. Auf der Verbraucher-Seite mit Desktop-CPUs stellst du möglicherweise fest, dass auf Gaming fokussierte Prozessoren in Multi-Thread-Szenarien nicht so gut abschneiden. Wenn du Berechnungen in einem Labor oder Rechenzentrum durchführst, sollte die CPU, die du auswählst, deine Skalierungsbedürfnisse widerspiegeln.

Ich kann das nicht abschließen, ohne Kühlung und Energieeffizienz zu erwähnen, insbesondere wenn die Kernanzahl erhöht wird. Als ich an einer Maschine mit einem 64-Kern-EPYC-Prozessor gearbeitet habe, musste ich nicht nur die Leistung, sondern auch die Frage klären, wie ich das System vor Überhitzung schützen kann. Mehr Kerne bedeuten mehr Wärme, und die Kühlungslösungen variieren stark in ihrer Effektivität. Es ist entscheidend, diese hohe Kernanzahl mit einer angemessenen Kühlung zu kombinieren, es sei denn, du möchtest, dass deine Chips thermisch drosseln, was alle Leistungsgewinne durch die Skalierung negiert.

Es gibt definitiv eine Wissenschaft darin, zu verstehen, wie CPUs mit Kernanzahlen skalieren, insbesondere mit Blick auf reale Anwendungen. Während wir in der Technologie weiterhin vorankommen, wird die Herausforderung immer darin bestehen, sicherzustellen, dass sowohl Hardwarearchitekten als auch Softwareentwickler synchron bleiben. Es ist eine fortlaufende Reise für uns beide im Tech-Bereich, und ich freue mich darauf zu sehen, wohin es uns führt. Egal, ob du komplexe Datenbanken oder komplizierte wissenschaftliche Simulationen betreibst, du musst darüber nachdenken, wie alles miteinander verbunden ist, von der Kernanzahl über die Architektur bis hin zu den Optimierungslevels. Es ist ein tiefes Thema, aber eines, das ich wirklich genieße zu erkunden.