12  Regularisierte Modelle

12.1 Lernsteuerung

12.1.1 Lernziele

  • Sie können Algorithmen fĂŒr regularisierte lineare Modell erklĂ€ren, d.h. Lasso- und Ridge-Regression
  • Sie wissen, anhand welche Tuningparamter man Overfitting bei diesen Algorithmen begrenzen kann
  • Sie können diese Verfahren in R berechnen

12.1.2 Literatur

  • Rhys, Kap. 11

12.1.3 Hinweise

Rhys und ISLR sind eine gute Quelle zum Einstieg in das Thema.

12.1.4 R-Pakete

In diesem Kapitel werden folgende R-Pakete benötigt:

12.2 Regularisierung

12.2.1 Was ist Regularisierung?

Regularisieren (oder regulieren) verweist auf “regulĂ€r”; laut Duden bedeutet das Wort so viel wie “den Regeln, Bestimmungen, Vorschriften entsprechend; vorschriftsmĂ€ĂŸig, ordnungsgemĂ€ĂŸ, richtig” oder â€œĂŒblich”.

Im Englischen spricht man auch von “penalized models”, “bestrafte Modell” und von “shrinkage”, von “Schrumpfung” im Zusammenhang mit dieer Art von Modellen.

Regularisierung ist ein Meta-Algorithmus, also ein Verfahren, was als zweiter Schritt “auf” verschiedene Modelle angewendet werden kann - zumeist aber auf lineare Modelle, worauf wir uns im Folgenden konzentrieren.

Das Ziel von Regularisierung ist es, Overfitting zu vermeiden, in dem die KomplexitĂ€t eines Modells reduziert wird. Der Effekt von Regularisierung ist, dass die Varianz der Modelle verringert wird und damit das Overfitting. Der Preis ist, dass der Bias erhöht wird, aber oft (?) geht die Rechnung auf, dass der Gewinn grĂ¶ĂŸer ist als der Verlust, zumindest ist das die Hoffnung.

Im Kontext von linearen Modellen bedeutet das, dass die Koeffizienten (ÎČs) im Betrag verringert werden durch Regularisierung, also in Richtung Null “geschrumpft” werden.

Dem liegt die Idee zugrunde, dass extreme Werte in den Koeffizienten vermutlich nicht “echt”, sondern durch Rauschen fĂ€lschlich vorgegaukelt werden.

Die bekanntesten Vertreter dieser Modellart sind Ridge Regression, L2, das Lasso, L1, sowie Elastic Net.

12.2.2 Ähnliche Verfahren

Ein Ă€hnliches Ziel wie der Regulaisierung liegt dem Pruning zugrunde, dem nachtrĂ€glichen Beschneiden von EntscheidungsbĂ€umen. In beiden FĂ€llen wird die KomplexitĂ€t des Modells verringert, und damit die Varianz auf Kosten eines möglichen Anstiegs der Verzerrung (Bias) des Modells. Unterm Strich hofft man, dass der Gewinn die Kosten ĂŒbersteigt und somit der Fit im Test-Sample besser wird.

Eine Andere Art der Regularisierung wird durch die Verwendung von Bayes-Modellen erreicht: Setzt man einen konservativen Prior, etwa mit Mittelwert Null und kleiner Streuung, so werden die Posteriori-Koeffizienten gegen Null hin geschrumpft werden.

Mit Mehrebenen-Modellen (Multi Level Models) lÀsst sich ein Àhnlicher Effekt erreichen.

12.2.3 Normale Regression (OLS)

Man kann sich fragen, warum sollte man an der normalen Least-Square-Regression (OLS: Ordinary Least Square) weiter herumbasteln wollen, schließlich garantiert das Gauss-Markov-Theorem, dass eine lineare Regression den besten linearen unverzerrten SchĂ€tzwert (BLUE, best linear unbiased estimator) stellt, vorausgesetzt die Voraussetzungen der Regression sind erfĂŒllt.

Ja, die SchĂ€tzwerte (Vorhersagen) der Regression sind BLUE, schĂ€tzen also den wahren Wert korrekt und maximal prĂ€zise. Das gilt (natĂŒrlich) nur, wenn die Voraussetzungen der Regression erfĂŒllt sind, also vor allem, dass die Beziehung auch linear-additiv ist.

Zur Erinnerung, mit OLS minimiert man man den quadrierten Fehler, RSS, Residual Sum of Square:

RSS=∑i=1n(yi−ÎČ0−∑j=1pÎČjxij)

Man sucht also diejenigen Koeffizientenwerte ÎČ (Argumente der Loss-Funktion RSS), die RSS minimieren:

ÎČ=argmin(RSS)ÎČ

Es handelt sich hier um SchĂ€tzwerte, die meist mit dem HĂŒtchen ÎČ^ ausgedrĂŒckt werden, hier aber zur einfacheren Notation weggelassen sind.

Abb. Abbildung 12.1 visualisiert die Optimierung mit OLS (Quelle). An gleicher Stelle findet sich eine gute Darstellung zu den (mathematischen) Grundlagen der OLS-Regression.

Abbildung 12.1: Visualisierung der Minimierung der RSS durch OLS

Übrigens nennt man Funktionen, die man minimiert mit Hilfe von Methoden des maschinellen Lernens mit dem Ziel die optimalen Koeffizienten (wie ÎČs) zu finden, auch Loss Functions (Kostenfunktion).

Das Problem der Regression ist, dass die schöne Eigenschaft BLUE nur im Train-Sample, nicht (notwendig) im Test-Sample gilt.

12.3 Ridge Regression, L2

12.3.1 Strafterm

Ridge Regression ist sehr Ă€hnlich zum OLS-Algorithmus, nur das ein “Strafterm aufgebrummt” wird, der RSS erhöht.

Der Gesamtterm, der optimiert wird, LL2 (Loss Level 2) ist also die Summe aus RSS und dem Strafterm:

LL2=RSS+Strafterm

Der Strafterm ist so aufgebaut, dass (im Absolutbetrag) grĂ¶ĂŸere Koeffizienten mehr zum Fehler beitragen, also eine Funktion der (quadrierten) Summe der Absolutwerte der Koeffizienten:

Strafterm=λ∑j=1pÎČj2

Man nennt den L2-Strafterm auch L2-Norm.

Dabei ist λ (lambda) ein Tuningparameter, der bestimmt, wie stark die Bestrafung ausfĂ€llt. Den Wert von λ lassen wir durch Tuning bestimmen, wobei λ∈R+∖{0}. Es gilt: Je grĂ¶ĂŸer lambda, desto stĂ€rker die Schrumpfung der Koeffizienten gegen Null, da der gesamte zu minimierende Term, LL2 entsprechend durch lambda vergrĂ¶ĂŸert wird.

Der Begriff “L2” beschreibt dass es sich um eine quadrierte Normierung handelt.

Der Begriff “Norm” stammt aus der Vektoralgebra. Die L2-Norm eines Vektors ||v|| mit k Elementen ist so definiert (Quelle):

||v||=(|v1|2+|v2|2+|vi|2+
+|vk|2)1/2 wobei |vi| den Absolutwert (Betrag) meint de Elements vi meint. Im Falle von reellen Zahlen und Quadrierung braucht es hier die Absolutfunktion nicht.

Im Falle von zwei Elementen vereinfacht sich obiger Ausdruck zu:

||v||=(v12+v22)

Das ist nichts anderes als Pythagoras’ Gesetz im euklidischen Raum.

Der Effekt von λ∑j=1pÎČj2 ist wie gesagt, dass die Koeffizienten in Richtung Null geschrumpft werden. Wenn λ=0, resultiert OLS. Wenn λ→∞, werden alle Koeffizienten auf Null geschĂ€tzt werden, Abb. Abbildung 12.2 verdeutlicht dies ().

Abbildung 12.2: Links: Regressionskoeffizienten als Funktion von lambda. Rechts: L2-Norm der Ridge-Regression im VerhĂ€ltnis zur OLS-Regression

12.3.2 Standardisierung

Die Straftermformel sagt uns, dass die Ridge-Regression abhĂ€ngig von der Skalierung der PrĂ€diktoren ist. Daher sollten die PrĂ€diktoren vor der Ridge-Regression zunĂ€chst auf sd=1 standardisiert werden. Da wir ÎČ0 nicht schrumpfen wollen, sondern nur die Koeffizienten der PrĂ€diktoren bietet es sich an, die PrĂ€diktoren dazu noch zu zentieren. Kurz: Die z-Transformation bietet sich als Vorverarbeitung zur Ridge-Regression an.

12.4 Lasso, L1

12.4.1 Strafterm

Der Strafterm in der “Lasso-Variante” der regularisierten Regression lautet so:

Strafterm=λ∑j=1p|ÎČj|,

ist also analog zur Ridge-Regression konzipiert.

Genau wie bei der L2-Norm-Regularisierung ist ein “guter” Wert von lambda entscheidend. Dieser Wert wird, wie bei der Ridge-Regression, durch Tuning bestimmt.

Der Unterschied ist, dass die L1-Norm (Absolutwerte) und nicht die L2-Norm (Quadratwerte) verwendet werden.

Die L1-Norm eines Vektors ist definiert durch ||ÎČ||1=∑|ÎČj|.

12.4.2 Variablenselektion

Genau wie die Ridge-Regression fĂŒhrt ein höhere lambda-Wert zu einer Regularisierung (Schrumpfung) der Koeffizienten. Im Unterschied zur Ridge-Regression hat das Lasso die Eigenschaft, einzelne Parameter auf exakt Null zu schrumpfen und damit faktisch als PrĂ€diktor auszuschließen. Anders gesagt hat das Lasso die praktische Eigenschaft, Variablenselektion zu ermöglichen.

Abb. Abbildung 12.3 verdeutlicht den Effekt der Variablenselektion, vgl. James u. a. (), Kap. 6.2. Die Ellipsen um beta^ herum nent man Kontourlinien. Alle Punkte einer Kontourlinie haben den gleiche RSS-Wert, stehen also fĂŒr eine gleichwertige OLS-Lösung.

Abbildung 12.3: lambda in der Lasso-Regression

Warum erlaubt die L1-Norm Variablenselektion, die L2-Norm aber nicht? Abb. Abbildung 12.4 verdeutlicht den Unterschied zwischen L1- und L2-Norm. Es ist eine Regression mit zwei PrĂ€diktoren, also den zwei Koeffizienten ÎČ1,ÎČ2 dargestellt.

Abbildung 12.4: Verlauf des Strafterms bei der L1-Norm (links) und der L2-Norm (rechts); pink: Test-MSE, schwarz: Bias, grĂŒn: Varianz

Betrachten wir zunĂ€chst das rechte Teilbild fĂŒr die L2-Norm aus Abb. Abbildung 12.4, das in Abb. Abbildung 12.5 in den Fokus gerĂŒckt wird ().

Abbildung 12.5: OLS-Fehlerkontur (blaues Oval) und Kontur des L2-Strafterms, Bildquelle: Rhys, 2020

Wenn lambda gleich Null ist, entspricht LL2 genau der OLS-Lösung. VergrĂ¶ĂŸert man lambda, so liegt LL2 dem Schnittpunkt des OLS-Kreises mit dem zugehörigen lambda-Kreis. Wie man sieht, fĂŒhrt eine Erhöhung von lambda zu einer Reduktion der Absolutwerte von ÎČ1 und ÎČ2. Allerdings werden, wie man im Diagramm sieht, auch bei hohen lambda-Werten die Regressionskoeffizienten nicht exakt Null sein.

Warum lĂ€sst die L2-Norm fĂŒr bestimmte lambda-Werte den charakteristischen Kreis entstehen? Die Antwort ist, dass die Lösungen fĂŒr ÎČ12+ÎČ22=1 (mit λ=1) graphisch als Kreis dargestellt werden können.

Anders ist die Situation bei der L1-Norm, dem Lasso, vgl. Abb. Abbildung 12.6.

Abbildung 12.6: OLS-Fehlerkontur (blaues Oval) und Kontur des L1-Strafterms, Bildquelle: Rhys, 2020

Eine Erhöhung von $ fĂŒhrt aufgrund der charakteristischen Kontourlinie zu einem Schnittpunkt (von OLS-Lösung und lambda-Wert), der - wenn lambda groß genug ist, stets auf einer der beiden Achsen liegt, also zu einer Nullsetzung des Parameters fĂŒhrt.

Damit kann man argumentieren, dass das Lasso implizit davon ausgeht, dass einige Koeffizienten in Wirklichkeit exakt Null sind, die L2-Norm aber nicht.

12.5 L1 vs. L2

12.5.1 Wer ist stÀrker?

Man kann nicht sagen, dass die L1- oder die L2-Norm strikt besser sei. Es kommt auf den Datensatz an. Wenn man einen Datensatz hat, in dem es einige wenige starke PrĂ€diktoren gibt und viele sehr schwache (oder exakt irrelevante) PrĂ€diktoren gibt, dann wird L1 tendenziell zu besseren Ergebnissen fĂŒhren (). Das Lasso hat noch den Vorteil der Einfachheit, da weniger PrĂ€diktoren im Modell verbleiben.

Ridge-Regression wird dann besser abschneiden (tendenziell), wenn die PrÀdiktoren etwa alle gleich stark sind.

12.5.2 Elastic Net als Kompromiss

Das Elastic Net (EN) ist ein Kompromiss zwischen L1- und L2-Norm. λ wird auf einen Wert zwischen 1 und 2 eingestellt; auch hier wird der Wert fĂŒr λ wieder per Tuning gefunden.

LEN=RSS+λ((1−α))⋅L2-Strafterm+α⋅L1-Strafterm)

α ist ein Tuningparameter, der einstellt, wie sehr wir uns Richtung L1- vs. L2-Norm bewegen. Damit wird sozusagen die “Mischung” eingestellt (von L1- vs. L2).

SpezialfÀlle:

  • Wenn α=0 resultiert die Ridge-Regression (L1-Strafterm wird Null)
  • Wenn α=1 resultiert die Lasso-Regression (L2-Strafterm wird Null)

12.6 Aufgaben

Schauen Sie sich die Aufgaben auf dem Datenwerk an, die das Tag stat-learning oder tidymodels haben. Auch wenn eine Aufgabe nicht explizit regulierte lineare Modelle verwendet, macht das eigentlich nichts, denn außer dem Tuningparameter Ă€ndert sich nichts am typischen Tidymodels-Ablauf.

12.7 Fallstudien


  1. Streng genommen ist er eine Funktion der L2-Norm bzw. mit Lambda-Gewichtet und ohne die Wurzel, die zur Vektornorm gehört↩