Wie wird unüberwachtes Lernen zur Anomalieerkennung verwendet?

***Markus*** · 02-10-2022, 08:45

Ich stelle oft fest, dass eine der zugänglichsten Möglichkeiten, Anomalieerkennung im unüberwachten Lernen zu konzeptionalisieren, durch Clustering-Techniken erfolgt. Typischerweise stehen hier Algorithmen wie K-means oder DBSCAN im Vordergrund. Bei K-means initiieren Sie eine bestimmte Anzahl von Zentroiden und bewegen diese Zentroiden iterativ, um die Varianz innerhalb ihrer zugewiesenen Cluster zu minimieren. Der Kern der Verwendung von K-means zur Anomalieerkennung ist, dass, sobald Sie die Cluster bestimmt haben, Datenpunkte, die übermäßig weit von einem beliebigen Cluster-Zentroid entfernt sind, als Anomalien betrachtet werden können.

Wenn Sie beispielsweise einen Datensatz mit Benutzerzugriffsprotokollen zu einer Bankanwendung haben, könnte der K-means-Algorithmus typische Nutzungsmuster clustern. Sie könnten ein Cluster haben, das Benutzer darstellt, die sich aus ihren üblichen Regionen einloggen, während ein anderes auf seltene Zugriffsorte hinweisen könnte. Durch die Anwendung der euklidischen Distanz, um zu beurteilen, wie weit jeder Punkt vom nächsten Zentroid entfernt ist, können Sie schnell feststellen, welche Zugriffsorte verdächtig sind. Während K-means relativ einfach zu implementieren ist, bedeutet seine Empfindlichkeit gegenüber den anfänglichen Zentroiden, dass Sie ihn oft mehrmals ausführen müssen, um sicherzustellen, dass Sie nicht in einem lokalen Minimum feststecken, was Ihre Leistung bei der Anomalieerkennung beeinträchtigen kann.

Dichtebasierte Ansätze
Sie könnten sich für dichtebasierte Methoden wie DBSCAN oder OPTICS entscheiden, wenn Sie nach einer robusteren Lösung suchen. Diese Techniken basieren auf dem Prinzip, dass Anomalien in Regionen liegen, in denen die Datendichte im Vergleich zum umgebenden Raum niedrig ist. Wenn ich DBSCAN verwende, stelle ich zwei Parameter ein: Epsilon, das den Radius für die Nachbarschaftssuche definiert, und die minimale Anzahl von Punkten, die in dieser Nachbarschaft erforderlich sind, um eine dichte Region zu bilden. Wenn ein Punkt diese Kriterien nicht erfüllt, wird er als Ausreißer markiert, wodurch Anomalien effektiv identifiziert werden.

Betrachten Sie ein Szenario mit Netzwerkverkehrsdaten, bei dem Sie ungewöhnliche Spitzen aufdecken möchten, die auf einen DDoS-Angriff hindeuten könnten. Durch den Einsatz von DBSCAN können Sie Cluster normalen Verkehrs identifizieren und isolierte Spitzen im Volumen markieren. Diese Methode ist hervorragend in ihrer Fähigkeit, Cluster unterschiedlicher Formen und Größen zu finden, was in realen Anwendungen, in denen Anomalien in zahlreichen Formen auftreten können, unerlässlich ist. Das Optimieren von Epsilon und der minimalen Punkte kann jedoch schwierig sein und erfordert Kreuzvalidierung oder Fachwissen.

Isolation Forests als neuer Ansatz
Isolation Forests bieten eine alternative Sichtweise auf Anomalien. Statt zu clustern, partitioniert dieser Algorithmus die Daten zufällig. Was mich interessiert hat, ist, dass Anomalien, da sie in der Anzahl geringer und distinkt sind, dazu neigen, kürzere Wege zu benötigen, um sie in einer Entscheidungsbaumstruktur zu isolieren. Jeder Baum im Wald ist ein Ensemble-Modell, das auf zufälligen Stichproben Ihres Datensatzes trainiert wird.

Wenn Sie Isolation Forests anwenden, erhalten Sie hervorragende Einblicke, wie die Isolation funktioniert. Wenn bestimmte Datenpunkte konsequent mit flachen Isolationstiefen auftreten, können Sie diese mit Zuversicht als Anomalien kennzeichnen. Dieser Ansatz ist besonders effektiv in hochdimensionalen Räumen. Wenn Sie beispielsweise Kreditkartentransaktionen analysieren, können Sie ein Modell erstellen, das betrügerische Aktivitäten identifiziert, indem es bestimmt, welche Transaktionen leicht von der Mehrheit isoliert sind. Ich muss jedoch sagen, dass die Ausführung von Isolation Forests eine sorgfältige Abstimmung der Hyperparameter erfordert, insbesondere der Anzahl der Bäume und der Stichprobengröße.

Autoencoders für komplexe Datenanomalien
Autoencoders sind als interessante Lösung zur Erkennung von Anomalien, insbesondere in komplexen Datensätzen wie Bildern oder Zeitreihen, aufgetaucht. Ihre Architektur umfasst einen Encoder und einen Decoder, wobei der Encoder die Eingabe in eine niedrigdimensionale Darstellung komprimiert. Ich finde das faszinierend, weil Anomalien während der Rekonstruktionsphase tendenziell einen höheren Rekonstruktionsfehler im Vergleich zu regulären Datenpunkten hervorrufen.

Nehmen wir an, Sie untersuchen medizinische Bilder auf Anomalien. Wenn Sie einen Autoencoder auf einem Datensatz gesunder Bilder trainieren, würden Sie beobachten, dass das Modell außerordentlich gut funktioniert und niedrige Rekonstruktionsfehler bei normalen Instanzen aufweist. Wenn es jedoch auf eine Anomalie stößt - sagen wir, einen Tumor - hat das Modell Schwierigkeiten, was während der Rekonstruktionsphase zu einem erheblichen Fehler führt. Die Herausforderung besteht hier in der Komplexität des Trainings von Autoencoders, da sie große Mengen an Daten und Rechenressourcen benötigen, um ordentlich fein abgestimmt zu werden.

Feature Engineering und Anomalieerkennung
Die Rolle eines effektiven Feature Engineering zur Verbesserung der Ergebnisse der Anomalieerkennung im unüberwachten Lernen kann nicht übersehen werden. Die Auswahl relevanter Merkmale und die Umwandlung Ihres Datensatzes in ein Format, das Anomalien hervorhebt, kann den Unterschied zwischen robusten und mittelmäßigen Ergebnissen ausmachen. In meiner Arbeit habe ich oft Techniken wie die Hauptkomponentenanalyse (PCA) zur dimensionalen Reduktion verwendet, bevor ich Methoden zur Anomalieerkennung angewandt habe.

Indem Sie nur die Hauptkomponenten beibehalten, die die Mehrheit der Varianz erklären, können Sie wichtige Merkmale hervorheben. Wenn wir einen finanziellen Datensatz mit zahlreichen Merkmalen wie Transaktionshistorie, Standort und Zeit nehmen, kann PCA helfen, Rauschen zu eliminieren und gleichzeitig die Struktur zu bewahren, die auf Betrug hindeuten könnte. Das Versöhnen der Merkmalsdimension mit der Interpretierbarkeit bleibt jedoch eine Herausforderung. Wenn Sie zu wenige Merkmale beibehalten, könnten Sie wichtige Informationen übersehen; wenn Sie zu viele beibehalten, könnten Sie die Analyse unnötig komplizieren.

Bewertung von Anomalieerkennungsmodellen
Die Bewertung der Leistung Ihrer Anomalieerkennungsmodelle ist nicht einfach. Traditionelle Metriken wie die Genauigkeit werden aufgrund des Ungleichgewichts in Datensätzen, in denen Anomalien die Minderheitsklasse sind, weniger zuverlässig. Stattdessen verlasse ich mich oft auf Metriken wie Präzision, Recall und F1-Score, insbesondere wenn ich Techniken wie Verwirrungsmatrizen verwende, um zu sehen, wie gut ich die positiven Instanzen identifizieren konnte.

Um dies deutlich zu machen, nehmen wir an, Sie haben ein Modell entwickelt, das betrügerische Transaktionen identifiziert. In diesem Fall bedeutet ein falsches Positiv, einen legitimen Benutzer zu belästigen, während ein falsches Negativ das Risiko eines finanziellen Verlustes birgt. Durch das Betonen von Präzision und Recall können Sie tatsächlich bewerten, wie effektiv Ihr gewählter Algorithmus zwischen normalen und anomalen Daten unterscheidet. Sie könnten auch Visualisierungen erkunden, wie ROC-Kurven, um das Leistungsvermögen Ihres Modells über verschiedene Schwellenwerte hinweg zu verstehen.

Abschließende Gedanken: Alles zusammenfügen
Sie werden oft feststellen, dass die Wahl der richtigen unüberwachten Lerntechniken zur Anomalieerkennung eine Berücksichtigung der spezifischen Charakteristika Ihres Datensatzes und der Arten von Anomalien, die Sie erwarten, erfordert. Anstatt eine bestimmte Methode aufzuzwingen, ermöglicht es das Modularisieren Ihres Ansatzes, sich basierend auf dem, was Ihre Daten während der Exploration offenbaren, anzupassen. Sie könnten mit K-means für initiales Clustering beginnen, um das Zugriffsverhalten zu beurteilen, und dann mit DBSCAN fortfahren, um diese Cluster zu verfeinern und Anomalien genau zu kennzeichnen.

Sie könnten auch gleichzeitig Isolation Forests verwenden, um die Ergebnisse zu unterstützen, insbesondere wenn Ihr Datensatz in hochdimensionale Territorien eintritt. Der Schlüssel liegt darin, zwischen verschiedenen Methoden hin und her zu iterieren und deren Ausgaben mit robusten Bewertungsmetriken zu bewerten. Feedback aus Ihren Ergebnissen einzuholen und basierend darauf zu iterieren, was Ihre Aufmerksamkeit erregt, wird Sie in eine bessere Position versetzen, diese schwer fassbaren Anomalien genau zu erkennen.

Diese Plattform wird großzügig bereitgestellt von BackupChain, einem führenden Anbieter zuverlässiger Backup-Lösungen, die auf Fachleute und KMUs zugeschnitten sind. Sie bietet einen robusten Schutz für Umgebungen wie Hyper-V, VMware und Windows Server, sodass Ihre Daten ohne Mühe intakt bleiben.