Lernen von Regeln
Titel:
- Verwendung von Hintergrundwissen in induktiven Lernalgorithmen des Data Mining - Bedeutung, Probleme, Perspektiven
Veranstaltungstyp:
- 20 Minuten Fachvortrag
Adressaten:
- Informatiker mit Grundkenntissen in Datamining, insbes. Regel-Lernen
Inhalt:
- Bsp.-Problem aus der Praxis: suche familienfreundliche Wohnung!
-
informelle Einführung in Argument Based (AB)-Lernen
- Martin Mozina, Jure Zabkar, Ivan Bratko: Argument based machine learning, Journal of Artificial Intelligence, Volume 171 Issue 10-15, July, 2007 http://portal.acm.org/citation.cfm?id=1285100 http://www.ailab.si/martin/abml/
- Nutzung von Ontologien zur Erweiterung von AB-Lernen
Anwendungsbeispiel: suche familienfreundliche Wohnung

Unsere Data Mining Aufgabe: Predictive Modeling
unser Ziel:
- Lerne anhand von Beispielen einen Klassifikator.
Quelle: http://digilib.ittelkom.ac.id/images/stories/artkel2/ge%20sri/Data%20Mining%20Task%5B11%5D.JPG
Gängige Klassifizierer:
- probabilistisch: Bayes'sche Netzwerke
- hoch performant: Support-Vector Maschinen
-
für nachvollziehbare Begründungen: logische Regeln!
- Entscheidungsbäume
- parallel evaluierbare Regelmengen
grundsätzliches Vorgehen:
- erstelle Trainings-Set: klassifiziere einige Anzeigen manuell
- baue Klassifizierer auf: Algorithmus lernt Modell
- wende Modell auf reale Daten an: Klassifiziere neue Anzeigen
Predictive Modeling durch Regel-Lernen
allgemeines Datamining-Problem:
- gegeben: ein example set ES
-
gesucht:
allgemein: Finde eine Funktion,
- die die Zielklasse (hier: Kredit?) aus den Attributen (hier: zahltRegelmäßig, istReich, hatHaarfarbe) möglichst gut vorhersagt
Wir sind Logiker. Wir definieren uns als Lern-Aufgabe:
- Finde eine (gute) logische Theorie, die mit den Beispielen konsistent ist
-
konkret: Finde eine Menge von (hier: boolschen) Regeln
der Form
- WENN zahltRegelmäßig UND ... DANN Kredit
Was tun bei Mehrfach-Klassifikationen? Verwende Ontologien
- um Integrität der Klassifikationen zu testen
- um weiteres Wissen abzuleiten
Was ist eine "gute" Funktion / Theorie?
-
precision / recall
- für Lern- und Trainings-Set
- draußen in der Welt (unbedingt overfitting vermeiden!)
- Komplexität, insbes. Erzeugungs- und Ausführungs-Ressourcen
Bedeutung von Rulesets in der Praxis:
- keine Blackbox (wie z.B. SVM)
- prinzipielle Nachvollziehbarkeit durch den Menschen
- können manuell ergänzt werden
Die Konsistenz der Klassifikation mit bereits vorhandenem Hintergrundwissen kann mit Ontologien geprüft werden.
- Kann Konsistenz mit Hintergrundwissen auch zugesichert werden?
Regel-Kernen durch Covering-Algorithmus
Covering-Algorithmus
- finde die beste Regel R, welche die (Zugehörigkeit zur) target class T vorhersagt
- füge R zur Regelmenge hinzu
- entferne die mit R korrekt vorhergesagten Beispiele aus der Trainingsmenge (verhindert, dass die gleiche Regel nocheinmal gefunden wird)
- falls T nicht leer gehe zu 1
Quelle: Wittig / Eiben: Data Mining, 2005, fig4.6a, p106
Mini-Beispiel: Kreditvergabe
Name | zahltRegelmäßig | istReich | hatHaarfarbe | Kredit |
---|---|---|---|---|
Mrs Brown | - | + | blond | + |
Mrs Grey | - | - | grau | - |
Mrs White | + | - | blond | + |
Beste Regel bzgl. Abdeckung und Komplexität:
- WENN blond DANN Kredit!
Bewertung der Regel:
- deskriptiv: Klassifiziert die Beispielmenge optimal!
- normativ: nicht konsistent mit Expertenmeinung
Überwachung des Covering-Algorithmus durch Argumente
Idee: Binde Expertenwissen ein
- Experte beurteilt exemplarisch ausgewählte Beispiele
- Datamining verallgemeinert die Expertenbewertungen
Verwende Hintergrundwissen in Form von Argumenten:
-
Mrs Brown bekommt Kredit, WEIL sie reich ist
- alle positiven Argumente müssen in der gesuchen Regel vorkommen:
-
Mrs Brown bekommt Kredit, OBWOHL sie unregelmäßig bezahlt.
- "negatives" Argument: Metawissen, was aussehen könnte wie ein Grund, aber keiner ist
- kein negatives Argument darf in der gesuchten Regel verwendet werden:
Motivation für die Nutzung von Argumenten:
-
Argumente schränken den Suchraum nach Regeln (z.T. drastisch) ein
- schnellere Regel-Generierung
- weniger Overfitting!
Eine Theorie, die mit Experten-Argumenten konsistent ist,
- ist nachvollziehbarer und mächtiger
- kann vom Experten auch inhaltlich beurteilt werden
- ist kommunizierbar, weil sie die Sprache und Begriffswelt von Experten nutzt
- bietet auch dem Experten Lernmöglichkeiten
- kann mithin Knowledge Engineering-Projekte unterstützen
Unser Mini-Beispiel jetzt:
-
gegeben:
- ein example set ES
- einige unterstützende Argumente für einige Beispiele
-
gesucht:
Finde eine (gute) Theorie,
- die mit den Beispielen konsistent ist
- und die die zusätzlichen Argumente verwendet!
Wie lautet das beste Ruleset, das mit Argumenten kompatibel ist?
Name | zahltRegelmäßig | istReich | hatHaarfarbe | Kredit |
---|---|---|---|---|
Mrs Brown | - | + | blond | + |
Mrs Grey | - | - | grau | - |
Mrs White | + | - | blond | + |
Argumente:
- Mrs Brown bekommt Kredit, WEIL sie reich ist
- Mrs Brown bekommt Kredit, OBWOHL sie unregelmäßig bezahlt.
Regel-Kandidaten: Kredit genehmigt (X), WENN
-
blond (X)
- inkonsistent: positives Argument kommt nicht vor!
-
blond und zahltRegelmäßig (X)
- inkonsistent mit positivem und negativem Argument
-
zahltRegelmäßig und reich (X)
- konsistent mit positivem Argument
- aber inkonsistent: negatives Argument darf nicht vorkommen!
-
reich (X)
- konsistent mit positivem Argument
Herausforderungen in der Praxis
Korpusanalyse von ca 50 Wohnungs-Angeboten
Begriffe: 1ZKB, 2-ZKB, ..., Loft | EFH, Einfamilienhaus, DHH, Doppelhaushälfte, Villa, Bungalow | Gäste-WC, G-WC | Untergeschoss, UG, Souterrain | Erdgeschoss, EG, Terrasse, Pergola | Obergeschoss | Dachgeschoss, DG, Schräge | ZKBB, Balkon, großer Balkon | Maisonette, Maisonettenwohnung, Mansardenwohnung | Garten, Innenhof, Hof | Küche, Kochnische, EBK, Einbauküche | Etagenwohnung | TGL-Bad, Tageslichtbad | Fußbodenheizung, Zentralheizung, Nachtspeicherheizung, Kamin | große Raumaufteilung | großes Bad | Parkett, Laminat, Fliesen, gefliest | gepflegt, hochwertig | renoviert, modernisiert | Neubau, Erstbezug | ruhig, ruhige Wohngegend, Villenviertel | Waschmaschinenraum, Speicher, Abstellkammer | Wintergarten, Atelier | Garage, Stellplatz, TG, Tiefgarage | verkehrsgünstig | familienfreundlich, Schaukel, Spielmöglichkeit im Innenhof | Paar, Single, WG, Wohngemeinschaft | Hund, Haustiere, keine Haustiere | Einkommensnachweis erforderlich, Schufa-Auskunft, Sicherheiten | keine Kaution, Kaution 2MM, ...
Data Minining Aufgabe:
- befrage Wohnungs-Experten nach Gründen für eine familienfreundliche Wohnung
- strukturiere die Terminologie
- erzeuge argumentbasiertes Ruleset!
Erkenne Idealisierungen
Sind die Attribute (oder ihre Werte) tatsächlich unabhängig voneinander? In der Praxis sind sie das meist nicht!
Attribute ...
-
sind zwar begrifflich, jedoch statistisch nicht unabhängig
- Erdgeschoss, Terrasse
- Obergeschoss, Balkon
-
enthalten Abkürzungen und Synonyme
- Maisonette, Maisonettenwohnung, Mansardenwohnung
-
sind begrifflich abhängig
- Hund, Haustier
technische Randbedingungen der Praxis
- "familienfreundlich" ist *kein* vordefinierter Tag,
-
kein reichhaltiges Trainings- und Test-Set verfügbar
- Experte muss Trainings-Set erst erzeugen
- hohe Gefahr des Overfitting
- kleine Trainingsmenge, viele Variablen
-
Abwägung zwischen Precision und Recall:
- lieber zuviel als zuwenig liefern!
- KMU-Praxis, kein EU Forschungsprojekt: harter Kostendruck
-
einfache Regeln genügen
- Argumente strukturieren vor
- Datamining Algorithmen ergänzen die Regeln
Weiche Randbedingungen
Wie kann man wertvolle Expertenzeit optimal nutzen?
-
zunächst klassisches Regellernen ohne Argumente (mit mehrfacher cross validation):
-
08/15-Entscheidungen
- geringer Informationsgehalt
- Experten-Problem: tacit knowledge
- Außreißer? aus der Datenbasis entfernen
- fehlerhafte Daten? abfangen über regel-basierte Integrity Checks
-
unvollständige Daten?
- auch Regeln ohne dieses Attribut erzeugen
- (ggf. pessimistische oder optimistische) Standardwerte setzen
-
08/15-Entscheidungen
- wähle kritische Beispiele: Hier wirken sich Argumente signifikant auf das Lernen aus!
-
wirklich schwierige Entscheidungen!
- als "untypisch" kennzeichnen
- Experte muss als Person entscheiden
- Argumente finden!
Perspektive: Ontologien als Hintergrundwissen
Ergänzung von argument-basiertem Lernen durch Ontologien
- hinterlege Argumente mit Terminologien (SKOS)
-
Normalisierung und/oder Erweiterung der Werte
- expandiere Abkürzungen
- reduziere Synonyme
- ersetze Hund durch Haustier
- ergänze Terrasse mit Erdgeschoss
- Integritäts-Check zur Entdeckung inkonsistenter Mehrfach-Klassifikationen
Unter der Motorhaube finden sich Formeln, z.B.:
Quelle: http://semanticwiki-en.saltlux.com/images/c/c5/Semantic_technology_02_2_11.jpg
Herausforderungen:
- finde geeignete Visualisierungen: lösbar
- erläutere dem nicht-informatischen Nutzer die Semantik: harte Nuss!