Wie optimieren CPUs das Multi-Threading für großangelegte maschinelles Lernen in Forschungsumgebungen?

***Markus*** · 05-05-2023, 23:03

Wenn wir über die Optimierung von Mehrkernverarbeitung für großangelegtes maschinelles Lernen sprechen, kann ich nicht anders, als daran zu denken, wie sich CPUs entwickeln, um den Anforderungen von Forschern und Datenwissenschaftlern gerecht zu werden. Kennt ihr das Gefühl, wenn ihr mit riesigen Datensätzen arbeitet und euer Laptop einfach zum Stillstand kommt? Das ist der Punkt, an dem die Leistung der Mehrkernverarbeitung ins Spiel kommt, und moderne CPUs wie der AMD Ryzen 9 oder Intel Core i9 machen einen riesigen Unterschied.

Ich erinnere mich an das erste Mal, als ich versucht habe, ein Modell für maschinelles Lernen auf meinem alten Quad-Core-Prozessor zu trainieren. Es fühlte sich an, als ob mein Computer in Melasse stecken blieb. Die Mehrkernverarbeitung ermöglicht es euch, mehrere Prozesse gleichzeitig auszuführen, was eine entscheidende Veränderung bringt, da Aufgaben im Bereich maschinelles Lernen, insbesondere während des Trainings, enorm prozessorintensiv sein können. Nehmt TensorFlow und PyTorch zum Beispiel. Sie sind mit Mehrkernverarbeitung im Hinterkopf entwickelt und können diese neueren CPUs nutzen, um Arbeitslasten effektiv über zahlreiche Kerne zu verteilen.

Ihr habt vielleicht gehört, wie sich CPUs von einfachen Mehrkern-Designs zu Architekturen mit simultaner Mehrkernverarbeitung entwickelt haben. Zum Beispiel hat die Ryzen-5000-Serie von AMD Architekturen, die mit mehreren Threads auf jedem Kern umgehen können. Das bedeutet, wenn ihr einen Prozess ausführt, der in kleinere Teile unterteilt werden kann, wie zum Beispiel das Training eines neuronalen Netzwerks, kann jeder Thread gleichzeitig einen Teil des Problems bearbeiten. Diese parallele Ausführung ist entscheidend für großangelegte Projekte im maschinellen Lernen.

Jetzt kommt es auf die Architektur an. Die Zen-3-Architektur in AMD-Prozessoren ist ein solches Beispiel. Sie ist für eine höhere Anzahl an Anweisungen pro Zyklus konzipiert, was sich direkt darauf auswirkt, wie effizient sie Mehrkernjobs ausführt. Ich habe Berichte gelesen, in denen Forscher verschiedene CPUs benchmarkten, und der Ryzen 9 5900X stach aufgrund seiner Fähigkeit, Aufgaben der wissenschaftlichen Berechnung zu verarbeiten, hervor. Ihr könnt den Unterschied wirklich spüren, wenn ihr komplexe Modelle wie BERT oder GPT ausführt, bei denen ihr die Trainingszeit erheblich verkürzen könntet.

Die aktuellen CPUs von Intel, wie der Core i9-11900K, konzentrieren sich ebenfalls stark auf diese Parallelität. Sie bieten eine hohe Taktfrequenz zusammen mit Mehrkern-Funktionen. Wenn ihr an einem Datensatz arbeitet, der neuronale Netzwerke verwendet, kann die Fähigkeit der CPU, Threads zusammenzuführen, die Erfahrung erleichtern und tiefes Lernen in einem überschaubaren Zeitraum realisierbar machen. Ich kann an Projekte denken, bei denen eine gute Konfiguration den Unterschied zwischen dem Abschluss in Stunden und Tagen bedeuten könnte.

Nehmt an, ihr baut ein System für euer Labor für maschinelles Lernen. Ihr könntet in Erwägung ziehen, einen Chip mit einer höheren Anzahl von Kernen zu haben, wie die Threadripper-Serie von AMD, die bis zu 64 Kerne umfasst. Ich kann nicht genug betonen, wie wichtig das für parallele Aufgaben ist. Als ich an einem kollaborativen Projekt gearbeitet habe, bei dem wir versuchten, riesige Mengen an Bildern zu klassifizieren, haben wir einen Threadripper verwendet, um die Arbeitslast auf all diese Kerne zu verteilen. Wir haben unsere konvolutionalen neuronalen Netzwerke erheblich schneller trainiert, als wir es mit einem Standardprozessor konnten.

Ich sollte die Bedeutung der Speichermbandbreite erwähnen. Selbst mit leistungsstarken Mehrkern-CPUs, wenn ihr euer System mit einer unzureichenden RAM-Konfiguration begrenzt, werdet ihr die Leistung, die ihr sucht, nicht erhalten. Das Ausführen einiger Aufgaben im maschinellen Lernen, insbesondere solcher, die umfangreiche Datenvorverarbeitung erfordern, könnte zu einer Situation führen, in der die CPU auf Daten wartet, was dem Zweck der Mehrkernverarbeitung zuwiderläuft. Ich habe Systeme eingerichtet, die hochbandbreitfähigen Speicher in Kombination mit Ryzen- und Intel-Chips verwenden, und diese Kombination bietet ausnahmslos das Beste aus beiden Welten.

Lasst uns nun über die realen Auswirkungen von Mehrkernverarbeitung in Forschungsumgebungen sprechen. Ich war an einem Projekt beteiligt, das die Durchführung von Simulationen auf Algorithmen des verstärkenden Lernens erforderte. Hier wollten wir Modelle trainieren, die das Treffen von Entscheidungen in Echtzeit-Szenarien, wie in der Robotik, optimieren konnten. Wir mussten mehrere Instanzen von Simulationen parallel ausführen. Der Server, den wir verwendet haben, hatte einen Intel Xeon Gold-Prozessor, der eine große Anzahl von Threads sehr effizient verwalten kann. Jedes Mal, wenn wir einen Parameter angepasst haben, konnten wir mehrere Kopien unserer Trainingsdatensätze über die verschiedenen Threads starten. Das machte die Feinabstimmung unserer Modelle erheblich einfacher, und wir erhielten viel schneller Ergebnisse.

Ihr wisst wahrscheinlich, dass nicht alle Aufgaben gleichermaßen von Mehrkernverarbeitung profitieren. Einige Algorithmen sind von Natur aus sequenziell, und ihr werdet feststellen, dass ihr aufgrund dessen keine direkte lineare Skalierung der Leistung sehen werdet. Allerdings könnt ihr durch den Einsatz cleverer Techniken, um Aufgaben wo möglich zu zerteilen, dennoch die Mehrkernverarbeitung zu eurem Vorteil nutzen. Ich erinnere mich an die Arbeit mit Gradienten-Boosting-Maschinen, bei denen wir die Mehrkernverarbeitung in verschiedenen Teilen der Datenvorverarbeitungspipeline implementiert haben, während das Modelltraining von Natur aus stärker sequenziell war. Das effektive Aufteilen von Aufgaben balanciert die Last über die Kerne.

Lasst uns auch die Auswirkungen von Software-Optimierungen nicht übersehen. Bibliotheken wie scikit-learn nutzen jetzt Mehrkernverarbeitung und optimierte Backend-Systeme. Wenn ihr diese Tools verwendet, kümmern sie sich oft im Hintergrund um die Mehrkernverarbeitung, sodass ihr euch auf das Design des Modells konzentrieren könnt. Ich empfehle normalerweise, sich mehrgesteuerte Bibliotheken wie OpenMP anzusehen oder Frameworks zu verwenden, die dies nativ unterstützen.

Ich sehe auch, wie Container-Technologien uns helfen, Ressourcen weiter zu optimieren. Angenommen, ihr habt eine Docker-Umgebung für eure Modelle des maschinellen Lernens; dies ermöglicht es euch, die CPU-Ressourcenzuweisung intelligenter zu maximieren. Mit Hilfe von Orchestrierungswerkzeugen könnt ihr die Arbeitslasten dynamisch basierend auf den verfügbaren CPUs skalieren. Container können euch helfen, verschiedene Modelle in isolierten Umgebungen hochzufahren und so die CPU-Nutzung über eure Forschungsumgebung hinweg zu optimieren.

Abschließend möchte ich die GPU-Beschleunigung erwähnen. Ich möchte nicht völlig an dieser Diskussion vorbeigehen, ohne zu erwähnen, wie viele Praktiker im Bereich maschinelles Lernen stark von GPUs wie der NVIDIA A100 oder AMD MI100 für Arbeitslasten abhängig werden, die ernsthafte Rechenleistung erfordern. Während CPUs die Mehrkernverarbeitung für eine Vielzahl von Aufgaben verwalten, kann der kombinierte Ansatz, CPUs für Steuerungsaufgaben und GPUs für datenintensive Prozesse zu nutzen, in Aufgaben des maschinellen Lernens ohne Präzedenzfälle zu Ergebnissen führen. Es verändert die Landschaft, wie wir Probleme angehen, denn so erhaltet ihr das Beste aus mehrgesteuerten CPUs und die hohe Leistung von GPUs.

Meine Erkenntnisse aus der Erfahrung mit Mehrkernverarbeitung innerhalb verschiedener CPUs beim maschinellen Lernen sind ziemlich klar. Wenn ihr in einem Forschungsumfeld tätig seid, ist es lohnenswert, in eine neuere CPU-Architektur zu investieren, die die Kernanzahl und Mehrkernfähigkeiten maximiert. Wenn ihr diese mit optimierten Bibliotheken und Frameworks kombiniert, die diese Threads am besten nutzen, könnt ihr das volle Potenzial eurer Maschinen ausschöpfen, wodurch die Reise des Forschers etwas weniger mühsam und viel spannender wird.

Ich weiß, dass die Optimierung dieser Umgebungen durchdachte Planung und Verständnis erfordert, aber sobald ihr es richtig macht, kann es eure Forschungsergebnisse massiv verbessern. Es gibt etwas wirklich Befriedigendes daran, zuzusehen, wie Modelle schneller trainiert werden, sodass ihr mehr Zeit habt, um zu erkunden, was die Daten euch sagen, oder einfach einmal nach einem langen Tag Codens abzuschalten. Die Energie, die man im Voraus in diese Konfigurationen investiert, zahlt sich mehrfach aus, wenn ihr tief in einer interessanten Erkundung der künstlichen Intelligenz steckt.