Lernen von Regeln

Lernen von Regeln

Titel:

  • Verwendung von Hintergrundwissen in induktiven Lernalgorithmen des Data Mining - Bedeutung, Probleme, Perspektiven

Veranstaltungstyp:

  • 20 Minuten Fachvortrag

Adressaten:

  • Informatiker mit Grundkenntissen in Datamining, insbes. Regel-Lernen

Inhalt:

  • Bsp.-Problem aus der Praxis: suche familienfreundliche Wohnung!
  • informelle Einführung in Argument Based (AB)-Lernen
  • Nutzung von Ontologien zur Erweiterung von AB-Lernen

Anwendungsbeispiel: suche familienfreundliche Wohnung

Unsere Data Mining Aufgabe: Predictive Modeling

unser Ziel:

  • Lerne anhand von Beispielen einen Klassifikator.

Quelle: http://digilib.ittelkom.ac.id/images/stories/artkel2/ge%20sri/Data%20Mining%20Task%5B11%5D.JPG

Gängige Klassifizierer:

  • probabilistisch: Bayes'sche Netzwerke
  • hoch performant: Support-Vector Maschinen
  • für nachvollziehbare Begründungen: logische Regeln!
    • Entscheidungsbäume
    • parallel evaluierbare Regelmengen

grundsätzliches Vorgehen:

  • erstelle Trainings-Set: klassifiziere einige Anzeigen manuell
  • baue Klassifizierer auf: Algorithmus lernt Modell
  • wende Modell auf reale Daten an: Klassifiziere neue Anzeigen

Predictive Modeling durch Regel-Lernen

allgemeines Datamining-Problem:

  • gegeben: ein example set ES
  • gesucht: allgemein: Finde eine Funktion,
    • die die Zielklasse (hier: Kredit?) aus den Attributen (hier: zahltRegelmäßig, istReich, hatHaarfarbe) möglichst gut vorhersagt

Wir sind Logiker. Wir definieren uns als Lern-Aufgabe:

  • Finde eine (gute) logische Theorie, die mit den Beispielen konsistent ist
  • konkret: Finde eine Menge von (hier: boolschen) Regeln der Form
    • WENN zahltRegelmäßig UND ... DANN Kredit

Was tun bei Mehrfach-Klassifikationen? Verwende Ontologien

  • um Integrität der Klassifikationen zu testen
  • um weiteres Wissen abzuleiten

Was ist eine "gute" Funktion / Theorie?

  • precision / recall
    • für Lern- und Trainings-Set
    • draußen in der Welt (unbedingt overfitting vermeiden!)
  • Komplexität, insbes. Erzeugungs- und Ausführungs-Ressourcen

Bedeutung von Rulesets in der Praxis:

  • keine Blackbox (wie z.B. SVM)
  • prinzipielle Nachvollziehbarkeit durch den Menschen
  • können manuell ergänzt werden

Die Konsistenz der Klassifikation mit bereits vorhandenem Hintergrundwissen kann mit Ontologien geprüft werden.

  • Kann Konsistenz mit Hintergrundwissen auch zugesichert werden?

Regel-Kernen durch Covering-Algorithmus

Covering-Algorithmus

  • finde die beste Regel R, welche die (Zugehörigkeit zur) target class T vorhersagt
  • füge R zur Regelmenge hinzu
  • entferne die mit R korrekt vorhergesagten Beispiele aus der Trainingsmenge (verhindert, dass die gleiche Regel nocheinmal gefunden wird)
  • falls T nicht leer gehe zu 1

Quelle: Wittig / Eiben: Data Mining, 2005, fig4.6a, p106

Mini-Beispiel: Kreditvergabe

Name zahltRegelmäßig istReich hatHaarfarbe Kredit
Mrs Brown - + blond +
Mrs Grey - - grau -
Mrs White + - blond +

Beste Regel bzgl. Abdeckung und Komplexität:

  • WENN blond DANN Kredit!

Bewertung der Regel:

  • deskriptiv: Klassifiziert die Beispielmenge optimal!
  • normativ: nicht konsistent mit Expertenmeinung

Überwachung des Covering-Algorithmus durch Argumente

Idee: Binde Expertenwissen ein

  • Experte beurteilt exemplarisch ausgewählte Beispiele
  • Datamining verallgemeinert die Expertenbewertungen

Verwende Hintergrundwissen in Form von Argumenten:

  • Mrs Brown bekommt Kredit, WEIL sie reich ist

    • alle positiven Argumente müssen in der gesuchen Regel vorkommen:
  • Mrs Brown bekommt Kredit, OBWOHL sie unregelmäßig bezahlt.
    • "negatives" Argument: Metawissen, was aussehen könnte wie ein Grund, aber keiner ist
    • kein negatives Argument darf in der gesuchten Regel verwendet werden:

Motivation für die Nutzung von Argumenten:

  • Argumente schränken den Suchraum nach Regeln (z.T. drastisch) ein
    • schnellere Regel-Generierung
    • weniger Overfitting!

Eine Theorie, die mit Experten-Argumenten konsistent ist,

  • ist nachvollziehbarer und mächtiger
  • kann vom Experten auch inhaltlich beurteilt werden
  • ist kommunizierbar, weil sie die Sprache und Begriffswelt von Experten nutzt
  • bietet auch dem Experten Lernmöglichkeiten
  • kann mithin Knowledge Engineering-Projekte unterstützen

Unser Mini-Beispiel jetzt:

  • gegeben:
    • ein example set ES
    • einige unterstützende Argumente für einige Beispiele
  • gesucht: Finde eine (gute) Theorie,
    • die mit den Beispielen konsistent ist
    • und die die zusätzlichen Argumente verwendet!

Wie lautet das beste Ruleset, das mit Argumenten kompatibel ist?

Name zahltRegelmäßig istReich hatHaarfarbe Kredit
Mrs Brown - + blond +
Mrs Grey - - grau -
Mrs White + - blond +

Argumente:

  • Mrs Brown bekommt Kredit, WEIL sie reich ist
  • Mrs Brown bekommt Kredit, OBWOHL sie unregelmäßig bezahlt.

Regel-Kandidaten: Kredit genehmigt (X), WENN

  • blond (X)
    • inkonsistent: positives Argument kommt nicht vor!
  • blond und zahltRegelmäßig (X)
    • inkonsistent mit positivem und negativem Argument
  • zahltRegelmäßig und reich (X)
    • konsistent mit positivem Argument
    • aber inkonsistent: negatives Argument darf nicht vorkommen!
  • reich (X)
    • konsistent mit positivem Argument

Herausforderungen in der Praxis

Korpusanalyse von ca 50 Wohnungs-Angeboten

Begriffe: 1ZKB, 2-ZKB, ..., Loft | EFH, Einfamilienhaus, DHH, Doppelhaushälfte, Villa, Bungalow | Gäste-WC, G-WC | Untergeschoss, UG, Souterrain | Erdgeschoss, EG, Terrasse, Pergola | Obergeschoss | Dachgeschoss, DG, Schräge | ZKBB, Balkon, großer Balkon | Maisonette, Maisonettenwohnung, Mansardenwohnung | Garten, Innenhof, Hof | Küche, Kochnische, EBK, Einbauküche | Etagenwohnung | TGL-Bad, Tageslichtbad | Fußbodenheizung, Zentralheizung, Nachtspeicherheizung, Kamin | große Raumaufteilung | großes Bad | Parkett, Laminat, Fliesen, gefliest | gepflegt, hochwertig | renoviert, modernisiert | Neubau, Erstbezug | ruhig, ruhige Wohngegend, Villenviertel | Waschmaschinenraum, Speicher, Abstellkammer | Wintergarten, Atelier | Garage, Stellplatz, TG, Tiefgarage | verkehrsgünstig | familienfreundlich, Schaukel, Spielmöglichkeit im Innenhof | Paar, Single, WG, Wohngemeinschaft | Hund, Haustiere, keine Haustiere | Einkommensnachweis erforderlich, Schufa-Auskunft, Sicherheiten | keine Kaution, Kaution 2MM, ...

Data Minining Aufgabe:

  • befrage Wohnungs-Experten nach Gründen für eine familienfreundliche Wohnung
  • strukturiere die Terminologie
  • erzeuge argumentbasiertes Ruleset!

Erkenne Idealisierungen

Sind die Attribute (oder ihre Werte) tatsächlich unabhängig voneinander? In der Praxis sind sie das meist nicht!

Attribute ...

  • sind zwar begrifflich, jedoch statistisch nicht unabhängig
    • Erdgeschoss, Terrasse
    • Obergeschoss, Balkon
  • enthalten Abkürzungen und Synonyme
    • Maisonette, Maisonettenwohnung, Mansardenwohnung
  • sind begrifflich abhängig
    • Hund, Haustier

technische Randbedingungen der Praxis

  • "familienfreundlich" ist *kein* vordefinierter Tag,
  • kein reichhaltiges Trainings- und Test-Set verfügbar
    • Experte muss Trainings-Set erst erzeugen
    • hohe Gefahr des Overfitting
    • kleine Trainingsmenge, viele Variablen
  • Abwägung zwischen Precision und Recall:
    • lieber zuviel als zuwenig liefern!
  • KMU-Praxis, kein EU Forschungsprojekt: harter Kostendruck
  • einfache Regeln genügen
    • Argumente strukturieren vor
    • Datamining Algorithmen ergänzen die Regeln

Weiche Randbedingungen

Wie kann man wertvolle Expertenzeit optimal nutzen?

  • zunächst klassisches Regellernen ohne Argumente (mit mehrfacher cross validation):
    • 08/15-Entscheidungen
      • geringer Informationsgehalt
      • Experten-Problem: tacit knowledge
    • Außreißer? aus der Datenbasis entfernen
    • fehlerhafte Daten? abfangen über regel-basierte Integrity Checks
    • unvollständige Daten?
      • auch Regeln ohne dieses Attribut erzeugen
      • (ggf. pessimistische oder optimistische) Standardwerte setzen
  • wähle kritische Beispiele: Hier wirken sich Argumente signifikant auf das Lernen aus!
  • wirklich schwierige Entscheidungen!
    • als "untypisch" kennzeichnen
    • Experte muss als Person entscheiden
    • Argumente finden!

Perspektive: Ontologien als Hintergrundwissen

Ergänzung von argument-basiertem Lernen durch Ontologien

  • hinterlege Argumente mit Terminologien (SKOS)
  • Normalisierung und/oder Erweiterung der Werte
    • expandiere Abkürzungen
    • reduziere Synonyme
    • ersetze Hund durch Haustier
    • ergänze Terrasse mit Erdgeschoss
  • Integritäts-Check zur Entdeckung inkonsistenter Mehrfach-Klassifikationen

Unter der Motorhaube finden sich Formeln, z.B.:

Quelle: http://semanticwiki-en.saltlux.com/images/c/c5/Semantic_technology_02_2_11.jpg

Herausforderungen:

  • finde geeignete Visualisierungen: lösbar
  • erläutere dem nicht-informatischen Nutzer die Semantik: harte Nuss!