Block 4: Data Science 101
KW_47
Besprechung der Zwischen-Evaluation
- Was sagen die Daten?
- Hörsaal-Vorträge?
CSV selbst erzeugen:
CSV mit MS Office und in LibreOffice öffen
- Was ist der Delimiter?
- Quelle: http://www.jbusse.de/2018_ws_gdw/daten-trt.csv
- Pivot-Tabelle erzeugen: Fahrzeug / Geschlecht / Summe Zeit
in LibreOffice Calc
Guided Tour: Titanic auf Kaggle
- Thema: https://www.kaggle.com/c/titanic
- Datensatz zeigen: Es ist ein CSV!
- https://www.kaggle.com/ash316/eda-to-prediction-dietanic/notebook
- Notebook zeigen: json, also Textformat ... notfalls kann man hier editieren.
Notebook öffnen in Anaconda > JupyterLab
- Markdown-Zellen
- Python-Zellen (aber auch R, ...)
- import pandas as pd from pandas import DataFrame url = "http://jbusse.de/2018_ws_gdw/daten-trt.csv" df = pd.read_csv(url, sep=";") df.head(3 df.describe()
Übung Gruppe 1
- Wiederholung Hevner
- CSV einlesen
KW_48
Python
EInführung in CRISP-DM
KW_49
- Nachklapp zu KW_48: Einführung in CRISP-DM: Phases, Tasks, Outputs
- Lernen Lernen: selbstgesteuerte Einarbeitung in eine neue Programmiersprache
- Vorstellung JB von http://jbusse.de/2018_ws_dsci/dsci-training-lernpfad.html
Übung Gruppe 2
Übungen
CSV 2 Excel/Calc
-
Pivot-Tabelle
nochmal Hevner: verbesserte Fig 2
- LERNJOURNAL