dsci-ml 2022-12-05
Contents
dsci-ml 2022-12-05#
einlesen : https://www.kaggle.com/code/dansbecker/basic-data-exploration (Datenvisualisierungen: https://www.kaggle.com/learn/data-visualization –> wo Ausreißer?)
mit train_0 daten#
split in train_0 + test_: https://www.kaggle.com/code/dansbecker/model-validation
train-Set
test … wegsperren!
zirkulär? parallelisieren?
EDA, exporative Datenanalyse
säubern
NaN, leere Felder: https://www.kaggle.com/code/alexisbcook/missing-values und https://www.kaggle.com/code/residentmario/data-types-and-missing-values
cm oder m?
Alter: in Monaten, in Jahren?
99
feature engineering
Feature Hernawachsende / Erwachsene?
separieren
(Datenvisualisierungen: https://www.kaggle.com/learn/data-visualization) ML-Modell 1 bauen
split von train_0 in train_1 + validation: https://www.kaggle.com/code/dansbecker/model-validation
typischerweise cross validation: https://www.kaggle.com/code/alexisbcook/cross-validation
ggf. Vorverarbeitung
normieren https://www.kaggle.com/code/alexisbcook/scaling-and-normalization
standardisieren
siehe auch https://scikit-learn.org/stable/modules/preprocessing.html
R
“Zahlen”-Regression
Attribut “Gender” auf Zahlen umarbeiten: https://www.kaggle.com/code/alexisbcook/categorical-variables
One Hot Encoding https://www.kaggle.com/code/alexisbcook/categorical-varialbles
was anderes?
auch umarbeiten?
C
encoding für das target Gender?
Ziel-Variable, Target
NEIN für Multiclass-Algorithmen
schon gar nicht nur bei male / female
optimale Hyper-Parameter festhalten
Modell deployen#
Modell 2 (das erste Schlussmodell) bauen
Hyper-Parameter sind fix, aus dem Bau von Modell_1
alle verfügbaren Daten heranziehen - auch die Test-Daten aus dem split train_0 + test 0 für neue Datensätze Pipeline Bausteine bauen : https://www.kaggle.com/code/alexisbcook/pipelines
säubern
neue features einfügen
separieren Modell beobachten