Das Gleichgewicht zwischen zu simpel und zu komplex
Bias ist der Fehler durch zu starke Vereinfachungen. Ein lineares Modell für nichtlineare Daten hat hohen Bias. Es kann die Komplexität der Daten gar nicht erfassen, egal wie viel du trainierst. Das Modell ist zu simpel für das Problem. Underfitting ist die Folge. Varianz ist der Fehler durch zu hohe Sensitivität auf Trainingsdaten. Das Modell reagiert auf jede kleine Schwankung, jeden Ausreißer. Ein minimal anderer Trainingsdatensatz führt zu komplett anderen Vorhersagen. Hier haben wir wieder Overfitting. Das Bias-Varianz-Tradeoff bedeutet: Du kannst nicht beides gleichzeitig minimieren. Reduzierst du Bias durch ein komplexeres Modell, steigt die Varianz. Machst du das Modell simpler für weniger Varianz, steigt der Bias. Die Kunst liegt darin, einen Kompromiss zu finden, bei dem der Gesamtfehler minimal ist. Modellkomplexität ist der Haupthebel. Mehr Features, mehr Schichten, mehr Parameter erhöhen Varianz. Weniger davon erhöht Bias. Regularisierung verschiebt das Gleichgewicht Richtung weniger Varianz. Mehr Trainingsdaten helfen tatsächlich, Varianz zu reduzieren, ohne Bias zu erhöhen. Cross-Validation hilft dir zu sehen, wo du gerade stehst. Große Differenz zwischen Training und Validation Error? Hohe Varianz. Beide schlecht? Hoher Bias. Das Ziel ist, beide Fehler niedrig zu halten.