Runde 1b: Verschachtelte Datenstrukturen mit Tiefe 2

Runde 1b: Verschachtelte Datenstrukturen mit Tiefe 2#

Darum geht es: In Runde 1a: grundlegende Datentypen und Datenstrukturen haben wir die wichtigsten der grundlegenden Python-Konstrukte kennengelernt.

Wir bleiben mit den Sprachmitteln in Runde 1 und wenden sie auf etwas komplexere Datenstrukturen an: Listen (oder Dicts etc.), die Listen oder Dicts etc. enthalten. Mit solch einer „verschachtelten“ Datenstruktur können wir z.B. Excel-Tabellen darstellen (und natürlich auch importieren und exportieren).

Ziel ist es, ein erstes einfaches Programm zu schreiben, in dem algorithmisch mehrere Schritte aufeinander folgen.

Dieses Notebook präsentiert zuerst das Problem, und zeigt dann akribisch Schritt für Schritt, wie man sich als Programmier-Anfänger in Runde 1 der Problemlösung nähert.

Melbourne Housing#

Wir lesen die ersten n Zeilen eines gut bekannten Original-Datensatzes aus der Wirtschaftsinformatik als Pandas Dataframe ein.

Download:

melb_data.csv
Wohin speichern? Am einfachsten in das selbe Verzeichnis legen, in dem dieses Notebook liegt.

Über diesen Datensatz:

mögliche Primärquelle (?): https://www.kaggle.com/datasets/anthonypino/melbourne-housing-market .
Beschreibung z.B. auch hier https://rpubs.com/mchtaufiqq/house_market
Ein Snapshot des Datensatzes wird auch verwendet in dem Schulungsmodul https://www.kaggle.com/learn/intro-to-machine-learning .

Doku Pandas:

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

import pandas as pd

nrows = 3
usecols = [ 'Landsize', 'Rooms', 'Price', 'Date', 'Address', 'Type']
melb_df = pd.read_csv( "./melb_data.csv", 
            usecols = usecols,
            nrows = nrows # eigentlich sind es 13580 Datensätze ;-)
         )

# Was haben wir eingelesen? # Anzahl Zeilen, Spalten
melb_df.shape

(3, 6)

melb_df

	Address	Rooms	Type	Price	Date	Landsize
0	85 Turner St	2	h	1480000.0	3/12/2016	202.0
1	25 Bloomburg St	2	h	1035000.0	4/02/2016	156.0
2	5 Charles St	3	h	1465000.0	4/03/2017	134.0

Mit Pandas Dataframes zu arbeiten kann in der ersten Runde Python-101 nicht Inhalt sein. Aber man kann solch ein DataFrame in Datenstrukturen überführen, die für eine Einführung in Python 101 sehr instruktuv sind.

Doku: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_dict.html

Die einfachste alle Darstellungen verwirft die Spaltenüberschriften völlig:

# jede Zeile eine Liste
melb_df.values.tolist()

[['85 Turner St', 2, 'h', 1480000.0, '3/12/2016', 202.0],
 ['25 Bloomburg St', 2, 'h', 1035000.0, '4/02/2016', 156.0],
 ['5 Charles St', 3, 'h', 1465000.0, '4/03/2017', 134.0]]

Informationserhaltende Darstellungen nutzen Mischungen aus Listen und dicts.

Aufgabe: Vergegenwärtigen Sie sich für list, dict und index, ins welche konkrete Datenstruktur die abstrakte Datenstruktur „Tabelle“ jeweils überführt wird!

# jede Spalte eine Liste
melb_orient_list = melb_df.to_dict(orient='list')
melb_orient_list

{'Address': ['85 Turner St', '25 Bloomburg St', '5 Charles St'],
 'Rooms': [2, 2, 3],
 'Type': ['h', 'h', 'h'],
 'Price': [1480000.0, 1035000.0, 1465000.0],
 'Date': ['3/12/2016', '4/02/2016', '4/03/2017'],
 'Landsize': [202.0, 156.0, 134.0]}

# jede Spalte ein Dict
melb_orient_dict = melb_df.to_dict(orient='dict') # orient='dict': default
melb_orient_dict

{'Address': {0: '85 Turner St', 1: '25 Bloomburg St', 2: '5 Charles St'},
 'Rooms': {0: 2, 1: 2, 2: 3},
 'Type': {0: 'h', 1: 'h', 2: 'h'},
 'Price': {0: 1480000.0, 1: 1035000.0, 2: 1465000.0},
 'Date': {0: '3/12/2016', 1: '4/02/2016', 2: '4/03/2017'},
 'Landsize': {0: 202.0, 1: 156.0, 2: 134.0}}

# jede Zeile ein Dict
melb_orient_index = melb_df.to_dict(orient='index')
melb_orient_index

{0: {'Address': '85 Turner St',
  'Rooms': 2,
  'Type': 'h',
  'Price': 1480000.0,
  'Date': '3/12/2016',
  'Landsize': 202.0},
 1: {'Address': '25 Bloomburg St',
  'Rooms': 2,
  'Type': 'h',
  'Price': 1035000.0,
  'Date': '4/02/2016',
  'Landsize': 156.0},
 2: {'Address': '5 Charles St',
  'Rooms': 3,
  'Type': 'h',
  'Price': 1465000.0,
  'Date': '4/03/2017',
  'Landsize': 134.0}}

Aufgabenstellung#

Gegeben: Der Melbourne Housing Datensatz.

Gesucht:

Price_avg: berechne das arithmetisches Mittel („Durchschnitt“) des Preises aller Häuser.
Lege neue Spalte Price_centered an: Subtrahiere vom jeweiligen Preis den Durchschnittspreis.
Bestimme zur neuen Spalte Price_centered die https://de.wikipedia.org/wiki/Empirische_Varianz.
neue Spalte Price_standardized: Dividiere jeden Wert aus Price_centered durch die Standardabweichung (Wurzel der Varianz).

Lösen Sie diese Aufgabe zunächst auf Basis der Variablen melb_orient_list.

Lösen Sie diese Aufgabe nur mit den Mittel aus Runde 1. Insbesondere stehen Ihnen Funktionen wie min() oder max() in Runde 1 ja nicht zur Verfügung. Deshalb programmieren wir diese zur Übung hier einfach selbst.

# meine Spalte: p

p = melb_orient_list["Price"]
p

[1480000.0, 1035000.0, 1465000.0]

p_sum = 0
for x in p:
    p_sum += x
p_sum

3980000.0

p_avg = p_sum / len(p)
p_avg

1326666.6666666667

p_zentriert = [ x - p_avg for x in p ]
p_zentriert

[153333.33333333326, -291666.66666666674, 138333.33333333326]

p_standardabweichung = ( sum( [ x**2  for x in p_zentriert ] ) / len(p) ) ** 0.5
p_standardabweichung

206330.3715457863

p_standardisiert = [  x / p_standardabweichung  for x in p_zentriert]

melb_orient_list["Price_centered"] = p_zentriert

melb_orient_list["Price_standardized"] = p_standardisiert

Erweiterung#

Wir wollen alle Spalten mit Zahlen standardisieren.

def standard(p):
    """Standardisiert eine Liste: avg abziehen und durch Standardabweichung teilen."""
    
    # Summe
    p_sum = 0
    for x in p:
        p_sum += x
    
    # arithmetisches Mittel
    p_avg = p_sum / len(p)
    print("p_avg:", p_avg)
    
    # zentrieren
    p_zentriert = [ x - p_avg for x in p ]
    
    # standardisieren
    p_standardabweichung = ( sum( [ x**2  for x in p_zentriert ] ) / len(p) ) ** 0.5
    p_standardisiert = [  x / p_standardabweichung  for x in p_zentriert]
    
    return p_standardisiert

#mein_test = [1,2,3,4,5]
#mein_test_standardisiert = standard(mein_test)
#mein_test_standardisiert

for Spalte in ["Price", "Landsize"]:
    Spaltenname_neu = Spalte + "_standardisiert"
    melb_orient_list[Spaltenname_neu] = standard( melb_orient_list[Spalte] )

p_avg: 1326666.6666666667
p_avg: 164.0

Kontrolle#

Natürlich kann man das so entstandene dict auch wieder in ein DataFrame umwandeln, Doku:

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.from_dict.html

melb2_list_df = pd.DataFrame.from_dict(melb_orient_list, orient = 'columns')
melb2_list_df

	Address	Rooms	Type	Price	Date	Landsize	Price_centered	Price_standardized	Price_standardisiert	Landsize_standardisiert
0	85 Turner St	2	h	1480000.0	3/12/2016	202.0	153333.333333	0.743145	0.743145	1.341269
1	25 Bloomburg St	2	h	1035000.0	4/02/2016	156.0	-291666.666667	-1.413591	-1.413591	-0.282372
2	5 Charles St	3	h	1465000.0	4/03/2017	134.0	138333.333333	0.670446	0.670446	-1.058897

Für Lernwillige: Wenn Sie mit Ihrer Lösung zufrieden sind, lösen Sie zur Übung diese Aufgabe auch in den anderen zwei Orientierungen dict und index (kniffeliger, weil der Datentyp nicht so gut passt, aber gut möglich.)