Was ist Bayes'sche Lineare Regression? (Teil 2)
Matthias Werner

In meinem vorherigen Blogbeitrag habe ich begonnen zu erklären, wie die Bayes'sche lineare Regression funktioniert.
Bisher habe ich den Satz von Bayes, den Maximum Likelihood Estimator (MLE) und Maximum A-Posteriori (MAP) vorgestellt. Jetzt werden wir in die mathematischen Tiefen der Details hinter der Bayes'schen linearen Regression eintauchen.
Bayes'sche lineare Regression
Wir haben das Bayes'sche Theorem verwendet, um die Schätzung der Modellparameter mit Regularisierung zu rechtfertigen, aber wir verwenden immer noch Punktschätzungen der Modellparameter
Rechnen wir mal nach!
Wie fangen wir also an? Schreiben wir zuerst die Verteilung auf, nach der wir suchen. Dann treffen wir eine vernünftige Auswahl von
Wie wir besprochen, wissen wir unter der Annahme, dass die Wahrscheinlichkeit
Die Proportionalität
Lassen Sie uns nun versuchen, die rechte Seite in diese Form umzuschreiben. Angesichts der Tatsache, dass die Wahrscheinlichkeit
Um das Schreiben komfortabler zu gestalten, führen wir die Vektor- und Matrixnotation für unsere Datenpunkte ein. Betrachten Sie die folgende Matrix der Datenpunkte
und der Zeilenvektor
Wir haben also einfach eine Matrix
wobei
Um uns einige Mühe mit der Notation zu ersparen, können wir bereits den Mittelvektor und die Kovarianzmatrix der posterioren Verteilung identifizieren (Gleichung MOMENTS)
Beachten Sie, dass wir für die Berechnung der MOMENTS nur die Trainingsdaten
Es lässt sich leicht zeigen, dass diese Gleichung zutrifft, wenn man bedenkt, dass
Hier stellen wir fest, dass $$\exp \left[ -\frac{\vec} {2\vec{y}^T} {2\sigma_{\epsilon}^2} + \frac{1}{2} \vec{\mu}_w^T \Sigma_w^{-1} \vec{\mu}_w \right]
Wir sehen, dass wir mit Hilfe der Definitionen MOMENTS die posteriore Verteilung GOAL der Modellparameter bis zur Normalisierung wiederherstellen. Die Normalisierung einer multivariaten Normalverteilung ist bekannt, sobald die Kovarianzmatrix
Zusammenfassung
Wir haben gelernt, wie man den Satz von Bayes in verschiedenen Graden anwenden kann:
Wir ignorierten Bayes und endeten mit einem einfachen MLE. Der MLE für die lineare Regression erweist sich als identisch mit der Minimierung der Summe der quadratischen Fehler.
Wir verwendeten den Satz von Bayes für eine Punktschätzung und erhielten MAP. MAP für die lineare Regression und ein normalverteilter Prior der Parameter erweist sich als äquivalent zur MLE mit L2-Regularisierung.
Nicht zuletzt verwendeten wir das Bayes'sche Theorem, um die gesamte posteriore Verteilung der Modellparameter unter Verwendung konjugierter Prioren zu berechnen. Sobald wir den Mittelvektor und die Kovarianzmatrix des Posteriors kennen, können wir analytisch die mittlere Vorhersage und die Standardabweichung / Varianz dieser Vorhersage berechnen. Darüber hinaus können wir einzelne Parametersätze sample.
Ich hoffe, dass dieser Artikel eine eingehende Einführung in die BLR und ihre Beziehung zu verschiedenen populären Methoden der Modellparameterschätzung gegeben hat. Wenn Sie Anmerkungen oder Fragen haben, zögern Sie nicht, uns zu kontaktieren!
Kontakt
Wenn Sie mit uns über dieses Thema sprechen möchten, kontaktieren Sie uns gerne und wir melden uns im Anschluss für ein unverbindliches Erstgespräch.