Lernen von Regeln

Titel:

Verwendung von Hintergrundwissen in induktiven Lernalgorithmen des Data Mining - Bedeutung, Probleme, Perspektiven

Veranstaltungstyp:

20 Minuten Fachvortrag

Adressaten:

Informatiker mit Grundkenntissen in Datamining, insbes. Regel-Lernen

Inhalt:

Bsp.-Problem aus der Praxis: suche familienfreundliche Wohnung!
informelle Einführung in Argument Based (AB)-Lernen
- Martin Mozina, Jure Zabkar, Ivan Bratko: Argument based machine learning, Journal of Artificial Intelligence, Volume 171 Issue 10-15, July, 2007 http://portal.acm.org/citation.cfm?id=1285100 http://www.ailab.si/martin/abml/
Nutzung von Ontologien zur Erweiterung von AB-Lernen

Anwendungsbeispiel: suche familienfreundliche Wohnung

Unsere Data Mining Aufgabe: Predictive Modeling

unser Ziel:

Lerne anhand von Beispielen einen Klassifikator.

Quelle: http://digilib.ittelkom.ac.id/images/stories/artkel2/ge%20sri/Data%20Mining%20Task%5B11%5D.JPG

Gängige Klassifizierer:

probabilistisch: Bayes'sche Netzwerke
hoch performant: Support-Vector Maschinen
für nachvollziehbare Begründungen: logische Regeln!
- Entscheidungsbäume
- parallel evaluierbare Regelmengen

grundsätzliches Vorgehen:

erstelle Trainings-Set: klassifiziere einige Anzeigen manuell
baue Klassifizierer auf: Algorithmus lernt Modell
wende Modell auf reale Daten an: Klassifiziere neue Anzeigen

Predictive Modeling durch Regel-Lernen

allgemeines Datamining-Problem:

gegeben: ein example set ES
gesucht: allgemein: Finde eine Funktion,
- die die Zielklasse (hier: Kredit?) aus den Attributen (hier: zahltRegelmäßig, istReich, hatHaarfarbe) möglichst gut vorhersagt

Wir sind Logiker. Wir definieren uns als Lern-Aufgabe:

Finde eine (gute) logische Theorie, die mit den Beispielen konsistent ist
konkret: Finde eine Menge von (hier: boolschen) Regeln der Form
- WENN zahltRegelmäßig UND ... DANN Kredit

Was tun bei Mehrfach-Klassifikationen? Verwende Ontologien

um Integrität der Klassifikationen zu testen
um weiteres Wissen abzuleiten

Was ist eine "gute" Funktion / Theorie?

precision / recall
- für Lern- und Trainings-Set
- draußen in der Welt (unbedingt overfitting vermeiden!)
Komplexität, insbes. Erzeugungs- und Ausführungs-Ressourcen

Bedeutung von Rulesets in der Praxis:

keine Blackbox (wie z.B. SVM)
prinzipielle Nachvollziehbarkeit durch den Menschen
können manuell ergänzt werden

Die Konsistenz der Klassifikation mit bereits vorhandenem Hintergrundwissen kann mit Ontologien geprüft werden.

Kann Konsistenz mit Hintergrundwissen auch zugesichert werden?

Regel-Kernen durch Covering-Algorithmus

Covering-Algorithmus

finde die beste Regel R, welche die (Zugehörigkeit zur) target class T vorhersagt
füge R zur Regelmenge hinzu
entferne die mit R korrekt vorhergesagten Beispiele aus der Trainingsmenge (verhindert, dass die gleiche Regel nocheinmal gefunden wird)
falls T nicht leer gehe zu 1

Quelle: Wittig / Eiben: Data Mining, 2005, fig4.6a, p106

Mini-Beispiel: Kreditvergabe

Name zahltRegelmäßig istReich hatHaarfarbe Kredit

Mrs Brown - + blond +

Mrs Grey - - grau -

Mrs White + - blond +

Name	zahltRegelmäßig	istReich	hatHaarfarbe	Kredit
Mrs Brown	-	+	blond	+
Mrs Grey	-	-	grau	-
Mrs White	+	-	blond	+

Beste Regel bzgl. Abdeckung und Komplexität:

WENN blond DANN Kredit!

Bewertung der Regel:

deskriptiv: Klassifiziert die Beispielmenge optimal!
normativ: nicht konsistent mit Expertenmeinung

Überwachung des Covering-Algorithmus durch Argumente

Idee: Binde Expertenwissen ein

Experte beurteilt exemplarisch ausgewählte Beispiele
Datamining verallgemeinert die Expertenbewertungen

Verwende Hintergrundwissen in Form von Argumenten:

Mrs Brown bekommt Kredit, WEIL sie reich ist
- alle positiven Argumente müssen in der gesuchen Regel vorkommen:
Mrs Brown bekommt Kredit, OBWOHL sie unregelmäßig bezahlt.
- "negatives" Argument: Metawissen, was aussehen könnte wie ein Grund, aber keiner ist
- kein negatives Argument darf in der gesuchten Regel verwendet werden:

Motivation für die Nutzung von Argumenten:

Argumente schränken den Suchraum nach Regeln (z.T. drastisch) ein
- schnellere Regel-Generierung
- weniger Overfitting!

Eine Theorie, die mit Experten-Argumenten konsistent ist,

ist nachvollziehbarer und mächtiger
kann vom Experten auch inhaltlich beurteilt werden
ist kommunizierbar, weil sie die Sprache und Begriffswelt von Experten nutzt
bietet auch dem Experten Lernmöglichkeiten
kann mithin Knowledge Engineering-Projekte unterstützen

Unser Mini-Beispiel jetzt:

gegeben:
- ein example set ES
- einige unterstützende Argumente für einige Beispiele
gesucht: Finde eine (gute) Theorie,
- die mit den Beispielen konsistent ist
- und die die zusätzlichen Argumente verwendet!

Wie lautet das beste Ruleset, das mit Argumenten kompatibel ist?

Name zahltRegelmäßig istReich hatHaarfarbe Kredit

Mrs Brown - + blond +

Mrs Grey - - grau -

Mrs White + - blond +

Name	zahltRegelmäßig	istReich	hatHaarfarbe	Kredit
Mrs Brown	-	+	blond	+
Mrs Grey	-	-	grau	-
Mrs White	+	-	blond	+

Argumente:

Mrs Brown bekommt Kredit, WEIL sie reich ist
Mrs Brown bekommt Kredit, OBWOHL sie unregelmäßig bezahlt.

Regel-Kandidaten: Kredit genehmigt (X), WENN

blond (X)
- inkonsistent: positives Argument kommt nicht vor!
blond und zahltRegelmäßig (X)
- inkonsistent mit positivem und negativem Argument
zahltRegelmäßig und reich (X)
- konsistent mit positivem Argument
- aber inkonsistent: negatives Argument darf nicht vorkommen!
reich (X)
- konsistent mit positivem Argument

Herausforderungen in der Praxis

Korpusanalyse von ca 50 Wohnungs-Angeboten

Data Minining Aufgabe:

befrage Wohnungs-Experten nach Gründen für eine familienfreundliche Wohnung
strukturiere die Terminologie
erzeuge argumentbasiertes Ruleset!

Erkenne Idealisierungen

Sind die Attribute (oder ihre Werte) tatsächlich unabhängig voneinander? In der Praxis sind sie das meist nicht!

Attribute ...

sind zwar begrifflich, jedoch statistisch nicht unabhängig
- Erdgeschoss, Terrasse
- Obergeschoss, Balkon
enthalten Abkürzungen und Synonyme
- Maisonette, Maisonettenwohnung, Mansardenwohnung
sind begrifflich abhängig
- Hund, Haustier

technische Randbedingungen der Praxis

"familienfreundlich" ist *kein* vordefinierter Tag,
kein reichhaltiges Trainings- und Test-Set verfügbar
- Experte muss Trainings-Set erst erzeugen
- hohe Gefahr des Overfitting
- kleine Trainingsmenge, viele Variablen
Abwägung zwischen Precision und Recall:
- lieber zuviel als zuwenig liefern!
KMU-Praxis, kein EU Forschungsprojekt: harter Kostendruck
einfache Regeln genügen
- Argumente strukturieren vor
- Datamining Algorithmen ergänzen die Regeln

Weiche Randbedingungen

Wie kann man wertvolle Expertenzeit optimal nutzen?

zunächst klassisches Regellernen ohne Argumente (mit mehrfacher cross validation):
- 08/15-Entscheidungen
  - geringer Informationsgehalt
  - Experten-Problem: tacit knowledge
- Außreißer? aus der Datenbasis entfernen
- fehlerhafte Daten? abfangen über regel-basierte Integrity Checks
- unvollständige Daten?
  - auch Regeln ohne dieses Attribut erzeugen
  - (ggf. pessimistische oder optimistische) Standardwerte setzen
wähle kritische Beispiele: Hier wirken sich Argumente signifikant auf das Lernen aus!
wirklich schwierige Entscheidungen!
- als "untypisch" kennzeichnen
- Experte muss als Person entscheiden
- Argumente finden!

Perspektive: Ontologien als Hintergrundwissen

Ergänzung von argument-basiertem Lernen durch Ontologien

hinterlege Argumente mit Terminologien (SKOS)
Normalisierung und/oder Erweiterung der Werte
- expandiere Abkürzungen
- reduziere Synonyme
- ersetze Hund durch Haustier
- ergänze Terrasse mit Erdgeschoss
Integritäts-Check zur Entdeckung inkonsistenter Mehrfach-Klassifikationen

Unter der Motorhaube finden sich Formeln, z.B.:

Quelle: http://semanticwiki-en.saltlux.com/images/c/c5/Semantic_technology_02_2_11.jpg

Herausforderungen:

finde geeignete Visualisierungen: lösbar
erläutere dem nicht-informatischen Nutzer die Semantik: harte Nuss!