Wie neuronale Netze eigentlich rechnen
Ein neuronales Netz ist im Prinzip eine Verkettung von Matrixmultiplikationen und Aktivierungsfunktionen. Jedes Neuron nimmt Inputs, multipliziert sie mit Gewichten, addiert einen Bias und schickt das Ergebnis durch eine nichtlineare Funktion. Das war's erstmal. Diese einfache Operation wird millionenfach wiederholt. Schichten stapeln sich: Input Layer nimmt deine Daten, Hidden Layers verarbeiten sie, Output Layer gibt die Vorhersage aus. Jede Schicht extrahiert abstraktere Features. Bei Bildern vielleicht erst Kanten, dann Texturen, dann Objektteile. Backpropagation ist der Trainingsalgorithm. Nach jeder Vorhersage wird der Fehler berechnet und rückwärts durch das Netz geschickt. Die Gewichte werden angepasst, um den Fehler beim nächsten Mal zu reduzieren. Gradient Descent macht die eigentliche Optimierung. Learning Rate bestimmt die Schrittgröße bei der Gewichtsanpassung. Zu groß, das Training wird instabil. Zu klein, es dauert ewig. Aktivierungsfunktionen wie ReLU sorgen dafür, dass das Netz nichtlineare Beziehungen lernen kann. Ohne sie wäre jedes neuronale Netz nur eine komplizierte lineare Regression. Loss Functions messen, wie falsch deine Vorhersagen sind. Mean Squared Error für Regression, Cross-Entropy für Klassifikation. Die Wahl der Loss Function beeinflusst, was dein Modell eigentlich optimiert.