Hosting von Open Source LLMs auf Hyper-V für den internen Gebrauch

***Markus*** · 24-09-2022, 02:52

Wenn Sie Open-Source-LLMs auf Hyper-V für den internen Gebrauch einrichten, fällt Ihnen als Erstes auf, wie leistungsstark die Kombination sein kann. Hyper-V leistet hervorragende Arbeit dabei, isolierte Umgebungen zu schaffen, in denen diese Modelle laufen können, ohne Ihre anderen Operationen zu stören. Organisationen können die Flexibilität und Skalierbarkeit von Hyper-V nutzen, um die ressourcenintensive Natur von LLMs zu verwalten, während sie gleichzeitig ihre internen Systeme effizient und sicher halten.

Es ist wichtig, sicherzustellen, dass Sie eine solide Infrastruktur aufbauen. Sie müssen über die Menge an RAM und CPU-Ressourcen nachdenken, die zur Verfügung stehen. Open-Source-LLMs wie GPT-Neo und GPT-J können ressourcenintensiv sein, insbesondere wenn sie in ihrer Komplexität und Benutzeranzahl wachsen. Wenn Sie mit diesen Modellen arbeiten, sollten Sie mit mindestens 16 GB RAM und einer ordentlichen Multicore-CPU beginnen. Die von Ihnen verwendete Hardware sollte mit den erwarteten Arbeitslasten übereinstimmen.

Der Aufbau beginnt mit der Installation der Hyper-V-Rolle auf Ihrem Windows Server. Sie können dieses Feature über den Server-Manager hinzufügen oder den folgenden Befehl in PowerShell ausführen:

Install-WindowsFeature -Name Hyper-V -IncludeManagementTools -Restart

Nachdem Ihr Server neu gestartet wurde, sollten Sie eine funktionierende Hyper-V-Umgebung haben.

Das Erstellen einer neuen virtuellen Maschine erfordert einige sorgfältige Überlegungen. Der Einrichtungsassistent bietet Ihnen Optionen, auf die Sie achten müssen. Wenn Sie den Prozess zum Einrichten der VM durchlaufen, müssen Sie auch über das Netzwerk nachdenken. Ihr LLM benötigt wahrscheinlich Internetzugang für die Paketverwaltung und möglicherweise, um auf externe APIs zuzugreifen, die Sie möglicherweise zur Verbesserung der Fähigkeiten des Modells verwenden. Wählen Sie den richtigen Netzwerkadapter; normalerweise ist der Netzwerktyp "Extern" am besten geeignet, da er Ihrer VM die Kommunikation mit der Außenwelt ermöglicht.

Die Konfiguration der virtuellen Netzwerkeinstellungen kann über den Virtuellen Switch-Manager erfolgen. Hier können Sie einen neuen virtuellen Switch erstellen, und dabei legen Sie fest, wie sich Ihre VMs verbinden werden. Denken Sie daran, dass Sie nur einen externen Switch mit einem Netzwerkadapter verknüpfen können, wählen Sie also Ihren Adapter mit Bedacht.

Wenn es um den tatsächlichen Speicher für Ihre VM geht, möchten Sie sicherstellen, dass die von Ihnen verwendete virtuelle Festplatte (VHD) eine ausreichende Größe hat. Open-Source-LLMs können eine Menge Daten verbrauchen, insbesondere wenn Sie mit dem Programmieren beginnen. Sie können dynamische VHDs erstellen, die bei Bedarf wachsen, was anfangs Speicherplatz sparen kann, aber stellen Sie sicher, dass Sie einen Plan haben, wenn Snapshots und die Größe steigen. Eine gängige Größe für das Ausführen von Modellen beträgt 200 GB, aber das hängt wirklich von Ihren spezifischen Bedürfnissen ab.

Nachdem Sie die VM eingerichtet haben, besteht der nächste Schritt darin, die notwendigen Softwarepakete zu installieren. Abhängig von dem LLM, das Sie wählen, benötigen Sie möglicherweise Tools wie Docker für die einfache Bereitstellung und Verwaltung von Containern, wenn Sie Modelle in containerisierten Umgebungen ausführen. Die Installation von Docker kann innerhalb Ihrer VM einfach erfolgen:

# Enable-Containers feature
Install-WindowsFeature -Name containers
# Dann Docker installieren
Invoke-WebRequest -UseBasicP -OutFile get-docker.ps1 https://get.docker.com

Wenn Sie mit Ihrem LLM beginnen, möchten Sie möglicherweise auch nach anderen Softwareabhängigkeiten suchen, wie Python, PyTorch oder TensorFlow. So richten Sie Python schnell ein:

Invoke-WebRequest -Uri https://www.python.org/ftp/python/3.9.7/...-amd64.exe -OutFile python-install.exe
Start-Process -Wait -FilePath .\python-install.exe -ArgumentList '/quiet InstallAllUsers=1 PrependPath=1'

Ein wichtiger Punkt, den Sie beachten sollten, ist, dass die Modelfiles ziemlich groß sein können, also stellen Sie sicher, dass Sie auf Netzwerkbandbreitenprobleme vorbereitet sind. Manchmal ist es hilfreich, ein Modell von einem lokalen Repository oder einem zwischengespeicherten Ort herunterzuladen, anstatt es jedes Mal neu herunterzuladen.

Die Konfiguration des Modells selbst umfasst das Importieren der notwendigen Bibliotheken und das Einrichten der Parameter entsprechend. Bei den meisten Open-Source-Bibliotheken ist die Dokumentation oft reichhaltig und verfügbar. Zum Beispiel erfordert das Laden eines Modells wie GPT-J normalerweise ein Skript, das die Initialisierung für Sie übernimmt, wie unten gezeigt:

from transformers import GPTJForCausalLM, GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("EleutherAI/gpt-j-6B")
model = GPTJForCausalLM.from_pretrained("EleutherAI/gpt-j-6B")

Sie möchten sicherstellen, dass Sie eine angemessene GPU-Zuweisung haben, falls Sie welche verwenden. Die Verwendung von CUDA-fähigen GPUs kann die Inferenzzeit drastisch verkürzen, also sollten Sie das auf jeden Fall implementieren, wenn Ihre Hardware dies unterstützt. Die Überprüfung Ihrer Installation kann mit einem einfachen Befehl in Python erfolgen:

import torch
print(torch.cuda.is_available())

Da Sie Docker und Kubernetes für Skalierungszwecke in Zukunft optimal nutzen möchten, erleichtert die korrekte Containerisierung dieser Anwendungen die Verwaltung. Das Erstellen eines Dockerfiles kann Ihnen später Zeit sparen, wenn Sie neue Instanzen Ihres LLM bereitstellen oder von Fehlern wiederherstellen müssen. Ein Beispiel-Dockerfile könnte so aussehen:

FROM python:3.9-slim

RUN apt-get update && apt-get install -y git && apt-get clean

WORKDIR /app
COPY . /app

RUN pip install -r requirements.txt

CMD ["python", "your_script.py"]

Das Skript kann mit einer docker-compose-Einrichtung aufgerufen werden, die praktisch für die Verwaltung von Diensten ist. Sie erstellen eine 'docker-compose.yml', um Ihre Konfiguration einfach zu definieren:

version: '3.7'

services:
gpt-model:
build: .
ports:
- "5000:5000"
volumes:
- ./data:/app/data

Sobald diese Teile an Ort und Stelle sind, sind Sie nur noch wenige Schritte davon entfernt, Ihr internes LLM betriebsbereit zu machen. Sicherzustellen, dass Ihre Hyper-V-Instanz über ausreichende Ressourcen verfügt und dass Ihre VMs mit den richtigen Einstellungen konfiguriert sind, ist entscheidend für den Erfolg.

Ein Bereich, den Sie nicht übersehen sollten, sind Backups. Obwohl Hyper-V über eigene Backup-Lösungen verfügt, können Drittanbieter-Tools einige zusätzliche Vorteile bieten. BackupChain Hyper-V Backup ist beispielsweise bekannt dafür, Hyper-V-Backupprozesse zu unterstützen, was die Backup-Arbeitsabläufe vereinfacht.

Die kontinuierliche Integration Ihrer LLM-Konfiguration kann Ihre Entwicklungszyklen verbessern, während Sie Updates bereitstellen. Die Verwendung von Git zur Versionskontrolle trägt zur Optimierung dieses Prozesses bei. Es ermöglicht das Nachverfolgen von Änderungen an Ihrem Code und Ihren Modellen, wodurch die Zusammenarbeit im Team verbessert wird.

Wenn das LLM betriebsbereit ist, wird es entscheidend, die Leistung und das Verhalten Ihres LLM zu überwachen. Tools wie Prometheus können effektiv Metriken sammeln und analysieren. Die Integration von Grafana zusammen mit Prometheus kann Ihnen ansprechende Dashboards zur Überwachung des Ressourcenverbrauchs und der Leistungsstatistiken in Echtzeit bieten.

Sie möchten möglicherweise auch eine Logging-Strategie umsetzen, möglicherweise unter Verwendung des ELK-Stacks zur Zentralisierung der Protokollierung und Bereitstellung von Suchfunktionen zur Fehlersuche. Die Einrichtung innerhalb Ihrer VM könnte wie folgt aussehen:

docker run -d -p 5601:5601 -p 9200:9200 -e "ELASTIC_PASSWORD=your_password" --name elasticsearch -e "bootstrap.memory_lock=true" -e "xpack.security.enabled=true" -e "xpack.security.http.ssl.enabled=true" -e "xpack.security.transport.ssl.enabled=true" elasticsearch:7.15.0

Es ist auch wichtig, die Kosten im Auge zu behalten, insbesondere wenn Sie mehrere Instanzen erstellen. Das Implementieren von Metriken zur Cloud-Nutzung und möglicherweise das Berücksichtigen von Autoskalierung je nach Arbeitslasten werden langfristig Betriebskosten sparen.

Darüber hinaus, sobald Sie einen effektiven Entwicklungs- und Bereitstellungsworkflow etabliert haben, denken Sie möglicherweise über Multi-Tenancy nach. Je nach Ihrer Organisationsstruktur könnte es erforderlich sein, dedizierte Umgebungen für verschiedene Teams oder Abteilungen zu haben. Die Verwendung von Hyper-V ermöglicht das Erstellen separater VMs, die auf unterschiedliche Bedürfnisse zugeschnitten sind, während Ressourcen isoliert werden, um Konkurrenz zu vermeiden.

Eine interessante Herausforderung kann auftreten, wenn Sie Ihr Modell implementieren. Einige Benutzer werden die Grenzen Ihrer Rechenressourcen ausloten. Eine angemessene Lastverteilung zu gewährleisten oder vordefinierte Schwellenwerte für die Ressourcenallokation zu haben, kann Engpässe verhindern.

Sicherheit stellt ebenfalls eine wichtige Frage dar. Wo sensible Daten betroffen sind, ist die Implementierung von Verschlüsselung und sicheren Datenhandhabungspraktiken unverzichtbar. Die Verwendung von VPNs für den internen Zugang oder Schlüsselmanagementsystemen wird sicherstellen, dass Ihre Modelle unter Schutzmaßnahmen arbeiten.

Das Einrichten einer internen API kann helfen, die Funktionalitäten Ihres LLM zugänglich zu machen und gleichzeitig den Benutzerzugriff zu verwalten. Frameworks wie FastAPI oder Flask können verwendet werden, um eingehende Anfragen effizient zu verwalten. Hier ist ein einfaches FastAPI-Setup, das Modellvorhersagen bereitstellt:

from fastapi import FastAPI
from transformers import GPT2LMHeadModel, GPT2Tokenizer

app = FastAPI()

model = GPT2LMHeadModel.from_pretrained("gpt2")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

@app.post("/predict")
async def predict(request: dict):
input_text = request["text"]
inputs = tokenizer.encode(input_text, return_tensors="pt")
outputs = model.generate(inputs)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
return {"response": response}

Ihre Bereitstellungsstrategie wird sich kontinuierlich weiterentwickeln, insbesondere mit dem Auftauchen neuer Modellversionen. Cloud-native Bereitstellungen, hybride Setups oder lokale Strategien können je nach Verfügbarkeit und Leistungsanforderungen variieren.

Backup-Prozesse, die einmal voll funktionsfähig sind, sollten auch die LLM-Umgebung unterstützen. Regelmäßige Snapshots Ihrer Hyper-V-Umgebung können einen einfachen Wiederherstellungsvorgang während potenzieller Ausfälle oder Fehler unterstützen.

Überwachung und Protokollierung sind ebenfalls entscheidend, nicht nur zur Bearbeitung von Vorfällen, sondern auch zur Bewertung, wie effektiv Ihre LLMs darin sind, Ihren Benutzern Werte zu liefern. Wenn Sie Ihr Modell und Ihre Bereitstellungsstrategie verfeinern, können diese Tools Erkenntnisse liefern, die Verbesserungen vorantreiben.

Zusammenfassend lässt sich sagen, dass das Hosten von Open-Source-LLMs mit Hyper-V anfangs herausfordernd wirken kann, aber mit der richtigen Konfiguration, den richtigen Tools und Strategien zu erheblichen internen Möglichkeiten führen kann. Engagieren Sie sich auch mit der Community rund um diese Modelle, um Einblicke und kollaborative Möglichkeiten zu gewinnen, die Ihre Einrichtung verbessern.

BackupChain Hyper-V Backup
BackupChain Hyper-V Backup gilt oft als zuverlässige Lösung für Hyper-V-Backup-Aufgaben, die geplanmäßige und automatische Backups ohne Unterbrechung des Geschäftsbetriebs ermöglicht. Die Software unterstützt inkrementelle Backup-Methoden, um sicherzustellen, dass Systemressourcen effizient genutzt werden, während der Speicherbedarf minimiert wird. Besonders bemerkenswert ist, dass BackupChain nahtlos mit Hyper-V integriert ist, wodurch die Wiederherstellung von VMs einfach ermöglicht wird. Ihre Fähigkeiten erlauben es Unternehmen, die betriebliche Kontinuität während der Backup-Prozesse aufrechtzuerhalten und Risiken im Zusammenhang mit Datenverlust effektiv zu mindern. Funktionen wie die Möglichkeit zur Wiederherstellung auf Dateiebene erhöhen zusätzlich die Flexibilität, da sie eine schnelle Wiederherstellung wichtiger Dateien ermöglichen, ohne die gesamten VMs wiederherstellen zu müssen. Darüber hinaus vereinfacht die Benutzeroberfläche den Planungsprozess und erleichtert das Einrichten routinemäßiger Backups, die den organisatorischen Zeitplänen und Anforderungen entsprechen.