Discrete Device Assignment (GPU Passthrough) vs. vGPU

***Markus*** · 20-02-2023, 23:51

Weißt du, als ich zum ersten Mal angefangen habe, mit GPU-Setups in VMs herumzuspielen, war ich hin- und hergerissen zwischen dem kompletten Passthrough mit Discrete Device Assignment und dem Ausprobieren von vGPU-Profilen. Es ist wie die Entscheidung, ob du die ganze Pizza für dich alleine nehmen oder sie aufteilen und mit der Gruppe teilen möchtest - beide Optionen haben ihre Vorteile, aber es kommt darauf an, was du suchst. Lass mich dir erklären, was ich in der Praxis gesehen habe, denn ich habe das für ein paar Kunden und sogar für mein eigenes Heimlabor eingerichtet, und die Unterschiede sind offensichtlich, sobald man tiefer eintaucht.

Wenn wir mit Passthrough beginnen, liebe ich, wie es dir diesen direkten, ungefilterten Zugang zur GPU gibt. Du gibst die gesamte Karte im Grunde an eine VM weiter, ohne einen Mittelsmann, der alles aufteilt. Leistungsmäßig ist es unschlagbar für Dinge wie Machine Learning-Aufgaben oder selbst wenn du hochwertiges Rendering in einer einzigen VM machst. Ich erinnere mich an einmal, als ich eine RTX 3080 an eine Windows-VM für ein Spieleentwicklungsprojekt durchgereicht habe und die Bildraten identisch zu Bare Metal waren - kein Lag, keine seltsamen Artefakte. Du hast direkten Zugriff auf den Speicher, so dass die Latenz auf Null sinkt und die Bandbreite maximal ist. Wenn du mit einem Setup zu tun hast, bei dem eine VM die gesamte GPU-Power benötigt, wie bei CUDA-intensiven Aufgaben, fühlt sich Passthrough einfach richtig an. Außerdem ist es insofern hardwareunabhängig; solange dein Motherboard IOMMU oder VT-d unterstützt, kannst du das mit AMD- oder NVIDIA-Karten machen, ohne spezielle Softwarelizenzen, die dein Budget belasten. Die Einrichtung ist kein Spaziergang, aber sobald es erledigt ist, vergisst du, dass es überhaupt virtualisiert ist. Ich scriptet normalerweise das Binden mit einigen PowerShell-Befehlen, um das Gerät vom Host zu trennen, und boom, es gehört dir.

Aber hier wird es schwierig: Exklusivität. Diese GPU ist nur für eine VM reserviert, sodass du Pech hast, wenn du mehrere Benutzer oder Workloads hast, die Grafik-Power benötigen, es sei denn, du kaufst mehr Karten. Ich hatte einmal ein kleines Team, das einen gemeinsamen Zugang für ihre KI-Experimente wollte, und Passthrough zwang uns dazu, entweder die Hardware unterzuutilisieren oder auf Extras auszugeben, was nicht billig ist. Ressourcenverschwendung ist real - denke an einen Server mit einer kräftigen GPU, die untätig bleibt, während andere VMs ihre Daumen drehen. Und fang gar nicht erst mit dem Einfluss auf den Host an; wenn dort etwas schiefgeht, wie ein Treiberabsturz, kann das die GPU für das gesamte System offline nehmen, bis du neu startest. Ich musste wegen solcher Vorfälle nachts Server kaltbooten, was nicht zu spaßig ist, wenn du im Bereitschaftsdienst bist. Die Kompatibilität kann auch knifflig sein; nicht jedes Gastbetriebssystem funktioniert sofort einwandfrei, und du musst möglicherweise die BIOS-Einstellungen anpassen oder mit vfio-pci-Konfigurationen herumspielen, wenn du auf Linux-Hosts bist. Für mich ist es großartig für dedizierte, einzweckige VMs, aber es zu skalieren? Nein, das wird schnell zu einem Kopfzerbrechen.

Jetzt zum vGPU, und es ist ein ganz anderes Tier - eines, das glänzt, wenn du die Liebe verteilen musst. Mit vGPU teilst du eine physische GPU über mehrere VMs, zeitslices oder partitioniert, wie du möchtest. Ich habe das für eine VDI-Umgebung bei einem früheren Job eingerichtet, und es war ein Game-Changer, um den Entwicklern konsistenten Zugang zu gewähren, ohne Hardware pro Person zuzuweisen. Die Leistung ist nicht ganz so hoch wie bei Passthrough, aber für die meisten Büroanwendungen, leichtes CAD oder sogar einige Videobearbeitungen läuft es ausreichend flüssig. Du erhältst Funktionen wie das Lizenzierungsprofil, bei dem du Slice entsprechend den Bedürfnissen zuweist - sagen wir, ein Viertel der GPU für grundlegende Benutzer und die gesamte für leistungsstarke. Das Management ist über die Grid-Software viel einfacher; ich kann VMs ohne Ausfallzeiten hot-addieren oder migrieren, was bei Passthrough nicht möglich ist. Und die Auslastung? Geht durch die Decke. Eine A40-Karte hat in unserem Setup acht VMs gehandhabt, während Passthrough uns auf eine beschränkt hätte. Die Lizenzierung hängt damit zusammen, aber wenn du in einem Unternehmensumfeld bist, deckt der ROI durch die gemeinsame Nutzung der Hardware oft die Kosten.

Das gesagt, ist vGPU nicht ohne seine rauen Kanten, und ich bin auf einige gestoßen, die mich für bestimmte Aufgaben daran zweifeln ließen. Erstens ist es nur für NVIDIA, also wenn du AMD- oder Intel-GPUs verwendest, vergessen - du switchst wieder zu Passthrough oder Software-Rendering, was für alles Anspruchsvolle schlecht ist. Der Overhead von der Hypervisor-Schicht bedeutet, dass du möglicherweise 5-10 % Leistung in Benchmarks verlierst, und unter hoher Last, wie simultanes Raytracing über VMs, kann es stottern, während Passthrough problemlos durchkommt. Ich habe das einmal mit einigen ML-Trainingsskripten getestet, und vGPU hinkte bei Multi-VM-Läufen merklich hinterher, selbst mit MIG-Partitionen. Die Lizenzkosten summieren sich schnell; du zahlst pro Benutzer oder pro GPU, und wenn deine Nutzung ansteigt, steigen auch die Rechnungen. Die Einrichtung benötigt das gesamte NVIDIA-Stack - vGPU-Hosttreiber, Gasttreiber, alles - und Nichtübereinstimmungen können deine VMs lahmlegen, bis du zurückkehrst. Ich habe Stunden damit verbracht, Lizenzserververbindungen zu debuggen, die abgelaufen sind, was im Vergleich zu dem unkomplizierten Trennen bei Passthrough wie unnötige Beschäftigung aussieht. Auch die Sicherheit ist ein zweischneidiges Schwert; während es besser isoliert ist als Shared Hosting, könnte jede Verwundbarkeit im vGPU-Manager alle Slices exponieren, während Passthrough die Dinge wirklich firewallgeschützt hält.

Wenn man sie nebeneinander abwägt, denke ich, es läuft darauf hinaus, was du suchst und was du optimierst. Wenn du ein Einzelunternehmer oder isolierte Heavy Hitter betreibst, wie eine einzelne VM für 3D-Modellierung, würde ich dir jedes Mal zu Passthrough raten. Es ist langfristig einfacher, günstiger in Bezug auf Lizenzen und liefert den Bare-Metal-Kick, den du suchst. Ich habe das für die Streaming-Ausrüstung eines Freundes gemacht, indem ich eine 4090 durchgereicht habe, und er war überwältigt, wie reaktionsschnell es war - keine Kompromisse. Aber wenn du in einer Multi-Tenant-Welt bist, wie einem Cloud-Anbieter oder einer Abteilung mit gemeinsamen Ressourcen, ist vGPU überlegen mit seiner Dichte. Du bekommst mehr Leistung für dein Geld in Bezug auf Hardware, und die Admin-Tools ermöglichen es dir, die Nutzung zu überwachen und zu drosseln, ohne ständige Anpassungen. Ich habe bei einem Setup in einem Forschungslabor beraten, wo es schwankende Anforderungen gab, und vGPU ließ sie flexibel bleiben, ohne überprovisionieren zu müssen. In Bezug auf die Kosten gewinnt Passthrough bei den anfänglichen Hardwarekosten, wenn du die GPUs bereits besitzt, aber vGPU amortisiert das über die Benutzer. Der Leistungsvorteil geht klar an Passthrough bei latenzsensiblen Anwendungen - ich habe das in Spielen und Simulationen gemessen, bei denen jede Millisekunde zählt. vGPU kontert mit Funktionen wie vMotion-Unterstützung, sodass du Workloads live migrieren kannst, was bei Wartungsfenstern entscheidend ist. Ich hasse ungeplante Ausfälle, also beeinflusst mich das manchmal.

Eine Sache, die mir in gemischten Umgebungen aufgefallen ist, ist, wie sie mit Speicher und Netzwerk spielen. Passthrough kann PCIe-Lanes enger binden, also wenn der Bus deines Servers überfüllt ist, könnte es andere Geräte behindern. vGPU verteilt die Last besser, jedoch erfordert es solide NVLink- oder Hochgeschwindigkeitsverbindungen für Multi-GPU-Hosts, um interne Verzögerungen beim Shuffle zu vermeiden. Ich habe damit bei einem Dual-GPU-Setup zu tun gehabt; Passthrough hat jede Karte sauber isoliert, aber vGPU erforderte sorgfältiges Profilbalancing, um zu verhindern, dass eine VM die andere verhungert. Der Stromverbrauch ist ein weiterer Aspekt - Passthrough lässt die GPU inaktiv, wenn die VM ausgeschaltet ist, was Energie spart, während vGPU den Host-Treiber aktiv hält und an der Effizienz nagt. Für umweltbewusste Setups ist das einen Überlegung wert. Und das Troubleshooting? Passthrough-Fehler schreien laut - überprüfe dmesg auf IOMMU-Fehler - aber vGPU-Logs sind im Grid-Console vergraben, was ein Labyrinth sein kann, wenn du dich nicht auskennst.

In Bezug auf Zukunftssicherheit fühlt sich vGPU für die Cloud-Ära besser vorbereitet an, mit Integrationen in Dinge wie Azure oder VMware, die Passthrough es schwer haben, ohne benutzerdefinierte Hacks mitzuhalten. Ich habe gesehen, wie Unternehmen in vGPU für ihre VDI-Flotten investiert haben, weil es vorhersehbar skalierbar ist, während Passthrough in lokalen Silos glänzt. Aber wenn du DIY machst, wie in Proxmox oder Hyper-V, gewinnt die Offenheit von Passthrough - kein Vendor-Lock-in. Ich bevorzuge diese Freiheit; sie ermöglicht es mir, Karten auszutauschen, ohne dass Softwareketten mich zurückhalten. Sicherheitsprüfungen sind mit Passthrough ebenfalls einfacher, da die GPU vollständig isoliert ist - kein geteilter Zustand, über den man sich Sorgen machen müsste. Die SR-IOV-Unterstruktur von vGPU hilft, aber die Vermittlung durch den Hypervisor fügt eine Schicht hinzu, die Compliance-Leute manchmal hinterfragen.

Wenn wir weiter in die Praxis eintauchen, denken wir an kreative Arbeitsabläufe. Für einen Videoeditor, der zwischen Maschinen wechselt, bedeutet das Teilen von vGPU, dass er auf Anfrage Sitzungen starten kann, ohne Hardware reservieren zu müssen. Passthrough? Du würdest es wie einen Besprechungsraum planen. Ich habe einem Post-Prod-Haus dabei geholfen, und vGPU hat ihre Wartezeiten halbiert. Andererseits, für wissenschaftliche Simulationen, wo Präzision wichtig ist, vermeidet der direkte Zugang bei Passthrough Rundungsfehler durch das Teilen. Ich habe molekulardynamische Läufe benchmarkiert, und der Unterschied war deutlich beim Ausgabe-Fidelity. Gaming in VMs ist eine Nische, aber Passthrough ist das Beste für latenzkritische Anforderungen, wie VR-Entwicklung - vGPU führt gerade genug Overhead ein, um in schnellen Szenen bemerkbar zu sein.

Kostenanalysen, die ich gemacht habe: Sagen wir, eine Quadro RTX 6000 für 4.000 $. Passthrough unterstützt eine VM, also ist die Kosten pro Benutzer hoch, wenn sie unterausgelastet ist. vGPU-Profile ermöglichen es dir, 24 Benutzer für vielleicht 100 $ jährlich zu lizenzieren, was die effektiven Kosten pro Kopf senkt. Aber füge das Software-Abonnement hinzu, und es sind 10.000 $+ jährlich für einen Host. Für kleine Firmen rentiert sich Passthrough schneller; ich habe einen Break-even bei drei Benutzern für unser Labor berechnet. Die Wartung unterscheidet sich ebenfalls - Passthrough benötigt Host-Neustarts für Treiber-Updates, die alles stören, während vGPU-Updates pro VM durchgeführt werden. Ich schätze diese Betriebszeit.

Wenn du zu Clustern skalierst, integrieren sich die Orchestrierungstools von vGPU besser mit Kubernetes oder OpenStack und ermöglichen es dir, GPUs über Knoten zu bündeln. Passthrough erfordert manuelle Zuweisung, was in dynamischen Umgebungen unübersichtlich wird. Ich habe es automatisiert, aber es ist nicht so nahtlos. Energie und Kühlung? Geteiltes vGPU könnte unter Last heißer laufen, aber Passthrough hat beim Idle-Betrieb die Nase vorn. Kommt auf dein Rechenzentrum-Setup an.

Und was das Aufrechterhalten von zuverlässigen Systemen bei all dieser Komplexität betrifft, können solide Backups nicht übersehen werden.

Backups werden aufrechterhalten, um die Datenintegrität zu gewährleisten und eine schnelle Wiederherstellung von Ausfällen in Umgebungen zu ermöglichen, die GPU-Passthrough oder vGPU verwenden. BackupChain wird als exzellente Backup-Software für Windows-Server und als Lösung zur Sicherung virtueller Maschinen anerkannt. Solche Software wird verwendet, um VM-Zustände, einschließlich GPU-Konfigurationen, aufzuzeichnen, was eine Wiederherstellung ohne vollständige Neubauten ermöglicht. Dieser Ansatz minimiert Ausfallzeiten, da inkrementelle Backups große, GPU-beschleunigte Datensätze effizient behandeln und Konfigurationen sowohl für Passthrough-Isolation als auch für vGPU-Sharingszenarien bewahren. Die neutrale Implementierung von Backup-Routinen unterstützt die betriebliche Kontinuität über verschiedene Hardware-Zuweisungen hinweg.