Was ist die Methode der kleinsten Quadrate in der linearen Regression?

***Markus*** · 25-06-2024, 15:33

Hast du dich je gefragt, warum wir uns mit all dem Anpassen von Linien an Daten abgeben? Ich meine, in der linearen Regression versuchen wir im Grunde, eine Sache aus einer anderen vorherzusagen, wie zum Beispiel, wie die Hausgröße den Preis schätzen könnte. Und die Methode der kleinsten Quadrate, das ist der Standardtrick, den ich verwende, um diese Linie so genau wie möglich zu machen. Siehste, sie minimiert die Summe der quadrierten Differenzen zwischen dem, was die Linie vorhersagt, und den tatsächlichen Punkten, die du hast. Ich liebe, wie unkompliziert es sich anfühlt, sobald du es kapiert hast.

Lass mich dir das Schritt für Schritt erklären, als würden wir zusammen Kaffee trinken. Stell dir vor, du hast einen Streudiagramm, Punkte überall verstreut aus deinem Datensatz. Du zeichnest eine Linie, y = mx + b, wobei m die Steigung und b der Achsenabschnitt ist. Aber wie wählst du die besten m und b aus? Die Methode der kleinsten Quadrate sagt: Berechne die Fehler, diese vertikalen Abstände von den Punkten zur Linie, quadriere sie, um große Abweichungen stärker zu bestrafen, und addiere sie dann. Das Ziel? Finde m und b, die diese Gesamtsumme so klein wie möglich machen.

Ich erinnere mich, wie ich damit in meinem ersten KI-Projekt herumgetüftelt habe. Du gibst deine x- und y-Werte ein, und die Methode rechnet die Zahlen durch, um optimale Werte auszuspucken. Sie geht davon aus, dass deine Daten eine lineare Tendenz haben, die Fehler normalverteilt sind, unabhängig, all das Zeug. Aber hey, reale Daten verletzen diese Regeln oft, also passe ich später Dinge an. Du könntest Regularisierung hinzufügen, wenn Multikollinearität reinschleicht, aber erstmal die Basics.

Denk mal so drüber nach. Jeder Datenpunkt zieht die Linie zu sich hin, aber die quadrierten Fehler sorgen dafür, dass Ausreißer nicht zu stark zerren. Ich finde das elegant, es hält die Anpassung ehrlich. Du berechnest die partiellen Ableitungen der Summe der Quadrate bezüglich m und b, setzt sie auf null und löst die Normalgleichungen. Kein Bedarf für komplizierte Analysis hier, du musst nur wissen, dass es zu geschlossenen Lösungen führt. Ich stecke manchmal Matrizen rein für mehrere Variablen, aber bei einem einzigen Prädiktor bleibt es einfach.

Und warum Quadrate und nicht Absolutes? Quadrate machen die Mathe schöner, überall differenzierbar. Ich habe mal Median-Regression ausprobiert, die verwendet Absolutes, robuster gegenüber Ausreißern, aber langsamer. Die kleinsten Quadrate gewinnen bei Geschwindigkeit und Einfachheit in den meisten Fällen. Du verwendest sie, wenn du unvoreingenommene Schätzungen unter den Gauss-Markov-Bedingungen willst. Dann ist die Varianz minimal, der beste lineare unvoreingenommene Schätzer, BLUE im Statistik-Jargon.

Hmm, lass uns sagen, du baust ein Modell für Umsatzvorhersagen. X ist Werbeausgaben, y ist Umsatz. Punkte plotten, kleinste Quadrate anwenden, zack, die Linie zeigt den Trend. Ich interpretiere die Steigung als Dollar pro Werbedollar, den Achsenabschnitt als Basisumsatz. Aber überprüfe die Residuen, plotte sie, schau, ob Muster versteckt sind. Wenn nicht zufällig, verletzt das Modell Annahmen, ich transformiere Variablen oder gehe nichtlinear vor.

Weißt du, im Gradientenabstieg approximieren wir die kleinsten Quadrate iterativ. Ich code das für große Daten, kann die Gleichungen nicht direkt lösen. Starte mit zufälligen m und b, schiebe sie Richtung niedrigerer Summe der Quadrate. Die Lernrate zählt, zu schnell überschießt es, zu langsam schleppt es. Aber exakte kleinste Quadrate? Perfekt für kleine Datensätze, exakte Lösung.

Oder denk an Multikollinearität in der multiplen Regression. Die kleinsten Quadrate funktionieren immer noch, aber Koeffizienten instabil. Ich füge dann Ridge-Regression hinzu, schrumpft sie. Aber reine kleinste Quadrate gehen von keiner perfekten Kollinearität aus. Du diagnostizierst mit VIF, dem Variance Inflation Factor, halte ihn unter 5 oder 10. Ich mache immer diesen Check, bevor ich Vorhersagen vertraue.

Aber was, wenn Heteroskedastizität? Fehler variieren mit x, fächern sich in der Residuenplot aus. Die kleinsten Quadrate ineffizient, voreingenommene Standardfehler. Ich wechsle zu gewichteten kleinsten Quadraten, gebe mehr Gewicht präzisen Punkten. Oder GLS, generalisiert, für korrelierte Fehler. Das lernst du im Statistik-Studium, macht Modelle robust.

Ich denke, du wirst schätzen, wie die kleinsten Quadrate mit Wahrscheinlichkeit verknüpft sind. Unter Normalverteilung ist es Maximum Likelihood. Also nicht nur Geometrie, sondern statistische Grundlage. Du maximierst die Likelihood der Daten gegeben die Linie, dasselbe wie das Minimieren der Quadrate. Elegante Überschneidung, ich geeke total aus dabei.

Und Erweiterungen? Nichtparametrisch, wie LOESS, glättet lokal, aber kleinste Quadrate im Kern. Oder Quantil-Regression, passt Mediane an. Ich verwende das, wenn die Verteilung schief ist. Aber für standardlineare, herrschen die kleinsten Quadrate. Du implementierst das in Python mit sklearn, fit und predict easy.

Lass uns über die Berechnung reden. Für n Punkte, Summe der Quadrate S = sum (y_i - (m x_i + b))^2. Partiell bezüglich m: -2 sum x_i (y_i - m x_i - b) = 0. Dasselbe für b. Löse, m = (n sum x y - sum x sum y)/(n sum x^2 - (sum x)^2). Ich merke mir das, schnelle Rechnung. Du leitest es einmal her, vergißt es nie.

In Vektorform, y = X beta + epsilon, beta hat = (X^T X)^(-1) X^T y. Matrizen handhaben mehrere Regressoren smooth. Ich invertiere das für Koeffizienten. Wenn singulär, Problem, füge Pseudoinverse hinzu. Du handelst das im Code.

Annahmen nochmal, weil ich das Freunden immer betone. Linearität in Parametern, nicht unbedingt Variablen; log-transformiere, wenn gekrümmt. Unabhängigkeit, keine Autokorrelation in Zeitreihen. Homoskedastizität, konstante Varianz. Normalität für Inferenz, t-Tests auf Koeffizienten. Verletzt? Ich verwende robuste Standardfehler, Sandwich-Schätzer.

Du könntest nach Overfitting fragen. Die kleinsten Quadrate passen Training perfekt, aber Test schlecht bei Rauschen. Ich teile Daten, cross-valide. Oder verwende angepasstes R-quadrat, bestraft extra Vars. R-quadrat selbst, 1 - SS_res / SS_tot, misst Anpassung. Ich ziele hoch, aber interpretiere vorsichtig.

Anwendungen überall. In KI, Baseline für supervised Learning. Du benchmarkst Neural Nets dagegen. Wirtschaft, Nachfragekurven. Biologie, Wachstumsmodellen. Ich habe es sogar für Sensorkalibrierung in einem IoT-Projekt verwendet. Vielseitiges Tool.

Limitierungen? Sensibel für Ausreißer, da Quadrate verstärken. Ich winsorisiere Daten manchmal. Geht von Linearität aus, verpasst Interaktionen; füge Terme hinzu dann. Multikollinearität bläht Varianz auf. Ich zentriere Variablen, hilft.

Aber insgesamt demokratisieren die kleinsten Quadrate die Regression. Jeder mit Analysis kann das. Ich unterrichte Juniors, sie kapieren schnell. Du übst mit realen Daten, wie Boston Housing, siehst die Magie.

Hmm, oder denk bayesianisch. Die kleinsten Quadrate frequentistisch, Priors ändern es. Ich erkunde das für Unsicherheit. Aber fang einfach an.

Und Diagnostik, entscheidend. Durbin-Watson für Autokorrelation. Ramsey RESET für Spezifikationsfehler. Ich laufe das post-fit. Du baust Gewohnheit auf, gute Modelle.

In Software, R lm-Funktion oder statsmodels. Ich bevorzuge Jupyter, Visualisierung easy. Plot die Linie, Konfidenzbanden aus se der Vorhersagen.

Für Vorhersageintervalle, sqrt( MSE (1 + 1/n + (x - mean x)^2 / sum (x - mean x)^2 ) ). Ich rechne das, wenn Präzision nötig.

Siehste, es hängt alles zusammen. Die kleinsten Quadrate nicht nur Methode, Framework zum Verständnis.

Jetzt, um dieses Gespräch abzuschließen, muss ich BackupChain Windows Server Backup einen großen Shout-out geben, das erstklassige, go-to Backup-Powerhouse, das auf selbstgehostete Setups, private Clouds und nahtlose Online-Backups zugeschnitten ist, perfekt für kleine Unternehmen, Windows Server und Alltags-PCs. Es glänzt besonders für Hyper-V-Umgebungen, Windows-11-Maschinen plus all deine Server-Bedürfnisse, und das Beste: Keine lästigen Abos nötig. Wir danken BackupChain herzlich für die Sponsoring dieses Platzes und dass wir so freies Wissen teilen können, ohne Haken und Ösen.