dsci-ml 2022-12-05#

mit train_0 daten#

zirkulär? parallelisieren?

EDA, exporative Datenanalyse
säubern
- NaN, leere Felder: https://www.kaggle.com/code/alexisbcook/missing-values und https://www.kaggle.com/code/residentmario/data-types-and-missing-values
- cm oder m?
- Alter: in Monaten, in Jahren?
- 99
feature engineering
- Feature Hernawachsende / Erwachsene?
separieren

split von train_0 in train_1 + validation: https://www.kaggle.com/code/dansbecker/model-validation
- typischerweise cross validation: https://www.kaggle.com/code/alexisbcook/cross-validation
ggf. Vorverarbeitung
- normieren https://www.kaggle.com/code/alexisbcook/scaling-and-normalization
- standardisieren
- siehe auch https://scikit-learn.org/stable/modules/preprocessing.html
R
- “Zahlen”-Regression
  - Attribut “Gender” auf Zahlen umarbeiten: https://www.kaggle.com/code/alexisbcook/categorical-variables
    - One Hot Encoding https://www.kaggle.com/code/alexisbcook/categorical-varialbles
- was anderes?
  - auch umarbeiten?
C
- encoding für das target Gender?
  - Ziel-Variable, Target
  - NEIN für Multiclass-Algorithmen
  - schon gar nicht nur bei male / female
optimale Hyper-Parameter festhalten

Modell 2 (das erste Schlussmodell) bauen

Hyper-Parameter sind fix, aus dem Bau von Modell_1
alle verfügbaren Daten heranziehen - auch die Test-Daten aus dem split train_0 + test 0 für neue Datensätze Pipeline Bausteine bauen : https://www.kaggle.com/code/alexisbcook/pipelines
säubern
neue features einfügen
separieren Modell beobachten