Was mit deinen Daten wirklich passieren muss
Schmutzige Daten sind das Standardproblem. Nicht die Ausnahme, sondern die Regel. Du bekommst nie perfekte Datensätze serviert, außer in Lehrbüchern. In der Praxis fehlen Werte, Formate sind inkonsistent, es gibt Duplikate und Ausreißer ohne Ende. Das alles muss raus oder korrigiert werden, bevor du überhaupt anfangen kannst. Feature Engineering hört sich fancy an, bedeutet aber einfach: Du musst entscheiden, welche Informationen dein Modell überhaupt sehen soll. Nicht jede Spalte in deinem Datensatz ist relevant. Manchmal musst du neue Features aus bestehenden Daten erstellen, manchmal musst du welche komplett entfernen. Das ist keine Wissenschaft, sondern Erfahrungssache und viel Ausprobieren. Normalisierung vergessen? Dein Modell wird schlecht lernen. Wenn ein Feature Werte zwischen null und eins hat und ein anderes zwischen null und tausend, dominiert das zweite einfach alles. StandardScaler oder MinMaxScaler helfen hier, aber du musst wissen wann. Train-Test-Split klingt trivial, wird aber oft falsch gemacht. Zeitreihen darfst du nicht einfach random aufteilen, sonst trainierst du auf Zukunftsdaten. Bei unbalancierten Datensätzen brauchst du Stratified Sampling. Solche Details entscheiden, ob deine Metriken später überhaupt aussagekräftig sind.