dsci 2020-11-27: Pandas

Pain Points

Hin- und Her-Konvertieren zwischen numpy und pandas

  • Data Wrangling soweit möglich mit pandas machen

  • scikit machine learning arbeitet dann mit numpy

Bzgl. Numpy und Pandas ist ein vertieftes Verständnis der Datenstrukturen empfehlenswert; empfohlene Literatur: Jake VanderPlas: Python Data Science Handbook (s.u.).

Kopieren oder Inplace?

  • Wir Lernende wollen idealerweise immer auf Kopien arbeiten

  • denn das ist für Jupyter Notebooks affiner:

    • leichter neu einsteigen in vorangehenden Zellen

    • weniger Überraschungen durch Nebeneffekte

Pandas Lernkarten

Prima Quelle:

Empfehlung: Website durchgehen und (echte oder virtuelle) Lern-Karteikarten herstellen (ggf. auch einfach in einer Excel-Tabelle). Beispiel:

  • Quelle und Frage, z.B. <https://www.w3resource.com/python-exercises/pandas/index.php > Select the ‘name’ and ‘score’ columns from the following DataFrame

  • Trick identifizieren, hier: df[['name', 'score']]

  • Lösung

JB zeigt seine Lösung

Literatur zu Pandas