Wie dein Modell schneller lernt
Standard Gradient Descent berechnet den Fehler über den kompletten Datensatz vor jedem Update. Bei großen Daten unpraktikabel langsam. Jeder Schritt ist zwar präzise, aber du wartest ewig auf Konvergenz. Stochastic Gradient Descent nimmt nur ein einzelnes Beispiel pro Update. Viel schneller, dafür chaotischer. Der Pfad zum Minimum zickzackt wild herum. Das kann sogar helfen, aus lokalen Minima zu entkommen, macht das Training aber instabil. Mini-Batch Gradient Descent ist der praktische Kompromiss. Kleine Gruppen von Beispielen, meist zweiunddreißig oder einhunderachtundzwanzig Stück. Schnell genug, stabil genug, parallelisierbar auf GPUs. Das nutzt praktisch jeder. Momentum akkumuliert vorherige Gradienten, gibt dem Training Trägheit. Verhindert, dass du in jedem kleinen Tal hängen bleibst. Der Ball rollt über kleine Unebenheiten drüber. Adam kombiniert Momentum mit adaptiven Learning Rates pro Parameter. Jedes Gewicht bekommt seine eigene Lernrate basierend auf historischen Gradienten. In der Praxis ist Adam oft die beste Wahl ohne viel Tuning. Learning Rate Scheduling ändert die Lernrate während des Trainings. Start groß für schnellen Fortschritt, dann kleiner werden für Feinabstimmung. Learning Rate Warmup startet extra klein und steigert sich, verhindert instabile erste Schritte bei großen Modellen.