Wie kannst du Präzision und Recall mit dem Entscheidungsschwellenwert anpassen?

***Markus*** · 03-07-2024, 20:48

Weißt du noch, wie wir über Modelle geplaudert haben, die Wahrscheinlichkeiten ausspucken? Ich meine, in der binären Klassifikation sagt dein Klassifizierer nicht einfach sofort Ja oder Nein. Er gibt einen Score aus, so von 0 bis 1, der zeigt, wie sicher er sich über die positive Klasse ist. Und da kommt der Entscheidungsschwellwert ins Spiel. Du wählst einen Cutoff, sagen wir 0,5, und wenn der Score das übersteigt, nennst du es positiv. Aber hier ist der Knackpunkt: Ich passe diesen Schwellwert ständig an, um Precision und Recall auszugleichen. Das erlaubt dir, zu verschieben, was dein Modell erfasst, im Vergleich zu dem, was es verpasst.

Precision, das weißt du, geht darum, wie viele der Positiven, die dein Modell markiert, tatsächlich richtig sind. Hohe Precision bedeutet weniger Fehlalarme. Recall ist die Kehrseite, so viele wahre Positiven wie möglich zu greifen, auch wenn dadurch ein paar Extras reinschleichen. Also, wenn ich den Schwellwert senke, sagen wir von 0,5 auf 0,3, wird mehr Zeug als positiv markiert. Das steigert den Recall, weil du mehr wahre Positiven schnappst, aber die Precision könnte sinken, da auch falsche Positiven zunehmen. Oder, wenn ich ihn auf 0,7 hochdrehe, wirst du wählerisch, die Precision steigt, weil du Fakes aussortierst, aber der Recall leidet, weil einige echte übersehen werden.

Ich mache das oft in Projekten, wo der Preis für Fehler zählt. Denk an Spam-Erkennung. Du willst keine wichtigen E-Mails verpassen, also herrscht da hoher Recall. Aber wenn falsche Positiven gutes Zeug untergehen lassen, hat Precision Vorrang. Das Anpassen des Schwellwerts ist wie das Drehen an einem Regler deines Radios, um den Sender ohne Rauschen zu finden. Du plottest die ROC-Kurve, um den Trade-off visuell zu sehen. Sie zeigt die True-Positive-Rate gegen die False-Positive-Rate bei verschiedenen Schwellwerten. Und bei unausgeglichenen Daten wechsle ich zur Precision-Recall-Kurve, die hervorhebt, wo dein Modell glänzt oder patzt.

Aber warte, wie wählst du eigentlich den besten Punkt aus? Ich fange an, indem ich die Vorhersagescores deines Modells auf einem Validierungsdatensatz hole. Dann sortiere ich sie und probiere Schwellwerte von niedrig bis hoch aus. Für jeden berechne ich Precision und Recall. Du kannst den F1-Score nutzen, um sie zu mischen, wie einen harmonischen Mittelwert, der Extreme bestraft. Oder, wenn dein Business mehr auf eines Wert legt, gewichte es stärker. Ich hatte mal einen Job bei Betrugserkennung, wo das Verpassen eines Betrugs viel teurer war als das Markieren einer legitimen Transaktion. Also habe ich den Schwellwert runtergeschoben, bis der Recall 95 % erreichte, auch wenn die Precision auf 70 % fiel. Das hat dem Kunden eine Menge gespart.

Und vergiss nicht, die Verteilung der Scores zählt. Wenn deine Positiven um 0,6 clusteren und die Negativen um 0,4, funktioniert ein 0,5-Schwellwert gut. Aber wenn alles durcheinander ist, suchst du den Sweet Spot, wo die Kurven abbiegen. Ich nutze Tools wie scikit-learn, um das zu automatisieren, indem ich durch Schwellwerte loope und plotte. Du siehst den Ellbogen, wo die Gewinne abflachen. Manchmal cross-validiere ich, um Overfitting des Schwellwerts auf einen Split zu vermeiden. Das hält es robust über Datenstücke hinweg.

Oder in der medizinischen Diagnose darfst du nicht rumspielen. Hoher Recall bedeutet mehr Tests, aber erfasst Krankheiten früh. Precision vermeidet unnötige Ängste. Ich passe es an die Einsätze an. Sagen wir, für Krebs-Screening, senke den Schwellwert, um 99 % der Fälle zu recallen, dann folge mit besseren Tests nach. Es verschiebt die Last, aber rettet Leben. Du balancierst es auch gegen Ressourcen aus. Mehr falsche Positiven bedeuten mehr Arztzeit. Also simuliere ich Kosten: Weise Dollar oder Stunden falschen Negativen versus falschen Positiven zu, dann finde den Schwellwert, der die Gesamtkosten minimiert.

Hmmm, und was ist mit Multi-Class? Du erweiterst es durch One-vs-Rest oder so, aber bleib erstmal bei binär. Der Schwellwert-Trick hält pro Klasse. Ich experimentiere auch mit asymmetrischen Schwellwerten, wie weicher auf einer Seite. Aber Basics zuerst. Du berechnest die Confusion Matrix bei jedem Schwellwert. Wahre Positiven über vorhergesagte Positiven gibt Precision. Wahre Positiven über tatsächliche Positiven ist Recall. Beobachte, wie sie invers korrelieren; eine hoch, die andere runter, meistens.

Ich warne dich immer, Schwellwerte sind keine Magie. Wenn die Scores deines Modells scheiße sind, hilft kein Tweak. Müll rein, Müll raus. Also trainiere erst einen soliden Klassifizierer, vielleicht mit besseren Features oder Ensemble-Methoden. Dann Schwellwert als Feinabstimmung. In der Produktion monitoriere ich Drift; Daten ändern sich, also brauchen Schwellwerte Updates. Du setzt Alarme, wenn Precision unter eine Linie fällt. Es ist ongoing, wie das Wartenhalten eines Autos.

Aber lass uns ins Mathe reingehen, ohne Formeln, okay? Stell dir dein Scores-Array vor. Du schwellst bei t, zähle, wie viele darüber sind, die wirklich positiv sind. Teile durch alle darüber für Precision. Für Recall teile durch alle tatsächlichen Positiven. Wenn t sinkt, wachsen Zähler und Nenner für Precision, aber falsche Positiven wachsen oft schneller. Daher der Drop. Ich graph es, zoome auf das Knie rein. Du pickst da für Balance, oder optimierst für dein Metrik.

Oder, wenn du mit seltenen Events dealst, wie 1 % Positiven, startet Precision niedrig, sogar bei hohen Schwellwerten. Du könntest upsamplen oder Kosten im Training anpassen. Aber Schwellwert hilft post-hoc. Ich erinnere mich an ein Projekt mit Netzwerk-Intrusionen. Super unausgeglichen. Ich habe den Schwellwert niedrig gesetzt für Recall nahe 90 %, akzeptiert 20 % Precision, dann Regeln drübergelegt zum Filtern. Es hat besser funktioniert als rigide Modelle.

Und du weißt, Evaluieren ist nicht nur Zahlen. Ich denke an User. Wenn deine App zu viele Falsche flagt, tunen sie aus. Hoher Recall flutet sie, niedrige Precision nervt. Also A/B-Test Schwellwerte im Schatten. Sieh Klickraten oder Zufriedenheit. Mische Quantitatives mit Qualitativem. Ich chatte mit Stakeholdern: Was tut mehr weh, verpassen oder falsch? Das leitet den Slide.

Manchmal nutze ich Youden's Index auf der ROC für einen Schwellwert. Er maximiert Sensitivität plus Spezifität minus eins. Schneller Weg, wenn ausgeglichen. Aber für PR-Kurve, Average Precision oder Break-Even-Point. Du wählst basierend auf Kurvenform. Steiler Start? Niedriger Schwellwert. Flach? Modell-Problem.

Hmmm, oder in Recommender-Systemen, Schwellwert auf Confidence für Vorschläge. Hoch für Precision, um schlechte Recs zu vermeiden. Niedrig für Recall, breites Netz auswerfen. Ich passe es pro User-Segment an. Power-User kriegen strict, Newbies loose. Personalisier es.

Aber warte, Overfitting von Schwellwerten. Ich splitte Daten dreifach: Trainiere Modell, tune Schwellwert auf Val, teste final. Hält es ehrlich. Du reportest Metriken beim gewählten Schwellwert, plus Kurven für Transparenz. Zeigt Trade-offs.

Ich dränge dich, es hands-on zu probieren. Nimm einen Datensatz, trainiere Logistic Regression. Variiere Schwellwert von 0,1 bis 0,9 in 0,1-Schritten. Plotte Precision-Recall. Sieh, ob die Kurve die Achsen umarmt oder diagonal ist. Schlechtes Modell diagonal, gutes umarmt top-left. Schwellwert slidet entlang.

Und in Deep Learning, dasselbe. Sigmoid gibt Wahrscheinlichkeiten aus. Schwell sie. Aber bei Neural Nets zählt Kalibrierung. Scores sind vielleicht keine echten Probs. Ich nutze Platt Scaling zum Fixen. Dann schwell richtig.

Oder für Ensembles, average Probs, schwell den Mean. Glättet es. Ich kombiniere Trees und Nets so. Boostet beide Metriken.

Du fragst dich vielleicht bei kontinuierlichen Outcomes. Schwellwert diskretisiert. Aber für Ranking kein Bedarf; AUC handhabt es. Trotzdem, für Decisions, schwellst du.

Ich denke, das ist der Kern. Anpassen des Schwellwerts lässt dich Precision-Recall pivoten, ohne Retraining. Schnell, effektiv. Kenne nur die Trade-off-Kurve aus deinen Daten. Experimentiere, messe, iteriere.

Jetzt, zurück zu Tools, die alles smooth laufen lassen, ich habe BackupChain Windows Server Backup lately genutzt - es ist diese top-notch, go-to Backup-Option für self-hosted Setups, private Clouds und Online-Speicher, maßgeschneidert genau für kleine Businesses, Windows Servers und Alltags-PCs. Es handhabt Hyper-V-Backups wie ein Champion, funktioniert nahtlos mit Windows 11 und allen Server-Versionen, und du kaufst es einmal ohne nervige Subscriptions. Großen Dank an BackupChain, dass sie dieses Diskussionsboard unterstützen und uns erlauben, dieses Wissen gratis zu teilen.