dsci-mindmap-ws2023

Dateinamen-Konvention hier: Dateinamen ist mit einem Unterstrich "_" als Trennzeichen zusammengesetzt aus kw42 Zitierkürzel in der Online-Fassung Kapitel-Nummerierung account Datum Beispiel: kw42_1.1_s-jbusse_2024-01-08

# KW 42, Thema: {term}`Barton & Müller 2021b`

http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Barton-Muller-2021b

Barton, T., Müller, C. (2021). Data Science: Vom Begriff zur Anwendung. In: Barton, T., Müller, C. (eds) Data Science anwenden. Angewandte Wirtschaftsinformatik. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33813-8_1

kw42_1.1 Was ist Data Science?

kw42_1.2 Was ist und was macht ein Data Scientist?

  • Tab. 1.1 Themenbereiche für Qualifikationen von Data Scientists
  • Spezialisierungen:
    • Data-Business-Person: Eine Person mit Fokus auf Qualifikationen für Business
    • Data Creative: Eine Person, bei der die Qualifikationen ungefähr gleichmäßig auf die fünf Themenbereiche verteilt ist
    • Data Developer: Eine Person mit Fokus auf Qualifikationen für Programmierung
    • Data Researcher: Eine Person mit vertieften Qualifikationen für Statistik
  • Gute Data Scientists sollen
    • über technische Expertise verfügen
    • neugierig sein
    • Problem in Hypothesen aufschlüsseln
    • Storytelling betreiben
    • Probleme kreativ und und auf unterschiedliche Weise anzugehen

KW 42_1.3 Einführung in Data Science:

  • hier nicht wichtig

kw42_1.4 Systeme, Werkzeuge und Methoden

  • hier nicht wichtig

Data-Science Anwendungsbereiche

Integration erneuerbarer Energien

  • Energiewende mit dem Ausstieg aus der Kernenergie und damit verbundenen Herausforderungen​

Machine Learning für die Energiemanagementoptimierung

  • Optimierung einer Klimatisierungsanlage mithilfe von Data Science

Text Mining bei einer wissenschaftlichen Literaturauswertung

  • Extraktion von Schlüsselwörtern zur Beschreibung von Inhalten

Identifikation relevanter Zusammenhänge in Daten mit maschinellem Lernen

  • Zusammenhang zwischen Konfigurationen von Produkten/Infrastruktur und Fehlern

Data Science Was ist das ?

Dt. Datenwissenschaften

Das Filtern von Daten, um bestimmte Prozesse zu optimieren oder automatisieren

  • - Datenanalyse ab den 1960er Jahren
  • - Verbreitung in Unternehmen in den 1990er Jahren
  • - Zunehmendes Datenvolumen durch Digitalisierung

Der Bereich der Datenwissenschaft befasst sich mit:

  • - Der Analyse von (großen) Datenmengen - Der Identifizierung von Anomalien in den Daten - Der Vorhersage von zukünftigen Ereignissen
    • - Der Analyse von (großen) Datenmengen
    • - Der Identifizierung von Anomalien in den Daten
    • - Der Vorhersage von zukünftigen Ereignissen

Statistik + Informatik = Data Science

Kernbereiche von Data Science

  • Data Engineering
  • Data Analytics
  • Data Prediction
  • Maschinelles Lernen

Die neue Definition von Data Science

  • basierend auf einen interdisziplinären Ansatz aus dem Jahr 2017 Data Science = (Statistik + angewandte Informatik + Computing + Kommunikation +  Soziologie + Management | (Daten + Umgebung + Denkweise))

Ethik und Data Science

  • Die Beurteilung sozialer Aspekte basiert auf moralische Prinzipien

Quellen

  • Barton, Tomas & Müller, Christian: Data Science anwenden, 1, Springer Verlag, 3-4.​ https://mindsquare.de/knowhow/data-science/#einsatzzweck​ https://datasolut.com/was-ist-data-science/

Was ist und was mach ein Data Scientist

Spezialisierungen

  • Data-Buisness-Person
    • Eine Person mit Fokus auf Qualifikation für Buisness
  • Data Creative
    • Eine Person, bei der die Qualifikationen ungefähr gleichmäßig auf die fünf Themenbereiche verteilt ist
  • Data Developer
    • Eine Person mit Fokus auf Qualifikationen für Programmierung
  • Data Researcher
    • Eine Perosn mit vertieften Qualifikationen für Statistik

Was sollten gute Data Scientists können?

  • über technische Expertise verfügen, die beispielsweise über ein naturwissenschaftliches Studium nachgewiesen werden kann
  • neugierig sein mit einem Verlangen, zu entdecken und in die Tiefe zu gehen, um ein Problem in Hypothesen aufzuschlüsseln, die getestet werden können
  • Storytelling betreiben, indem sie Daten dazu verwenden, um eine Geschichte zu erzählen und diese effektiv zu kommunizieren

Welche Qualifikationen sind dafür benötigt?

  • Business/Produktentwicktlung
    • - Buisness
    • - Produktentwicklung
  • Machine Learning/Big Data
    • - Big Data und verteilte Daten
    • - Machine Learning
    • - Strukturierte Daten
    • - Unstrukturierte Daten
  • Mathematik/Operation Research
    • - Algorithmen
    • - Bayes'sche Statistik und Monte-Carlo-Methoden
    • - Grafische Modelle
    • - Mathematik
    • - Optimierung
    • - Simulation
  • Programmierung/Systemadministration
    • - Back-End-Programmierung
    • - Front-End-Programmierung
    • - Systemadministration
  • Statistik und Visualisierung
    • - Statistik
    • - Umfragen und Marketing
    • - Visualisierung

Data Science: Vom Begriff zur Anwendung

1.3 Einführung in Data Science

  • Einführung in Data Science in Kapitel 2
  • Ethische Betrachtungen sind eine immer größere Rolle in der digitalen Transformation von Unternehmen
  • digitale Transformation führt zur Implementierung technologischer Lösungen zur Unterstützung der Entscheidungsfindung
  • Untersuchungen zum Scheitern von Data-Science-Projekten in Kapitel 5

1.4 Systeme, Werkzeuge und Methoden

  • "Empfehlungssysteme und der Einsatz maschineller Lernverfahren" von A. Peuker und T. Barton
    • Grundlagen und Einsatz von Empfehlungssysteme
  • vergleich BI-Systeme und die Funktionalität aus dem Bereich machine Learning für Fachanwendungen

1.1 Was ist Data Science?

  • Schnittmenge dreier Mengen, jede eine Kompetenz von Data Scientists
    • Hacking-Fähigkeiten
    • mathematische, statische Kompetenzen
    • substanzielle Kompetenzen
  • vier Kernbereiche für die acatech
    • Data Engineering
    • Data Analytics
    • Data Prediction
    • maschinelles Lernen
  • neuere Definition basierend auf interdisziplinärem Ansatz
    • Data Science=(Statistik+angewandte Informatik+Computing+Kommunikation+Soziologie+Management | (Daten+Umgebung+Denkweise)
  • Data Science stützt sich auf
    • angewandte Informatik
    • Computing
    • Kommunikation
    • Management
    • Soziologie (soziale Aspekte)
  • Moral
    • Beurteilung von sozialen Aspekten
    • Gesamtheit feststellbarer Verhaltensweisen, Verhaltensnormen und verhaltensbezogener Eistellungen und Werturteile
    • Gegenstand der Ethik

1.2 Was ist und was macht ein Data Scientist?

  • Attraktivster Job des 21. Jahrhunderts
  • 2015 Chief Data Scientist ernannt
  • Was macht er und welche Qualifikationen braucht er?
    • Business und Produktentwicklung
    • Machine Learning/Big Data
      • Big Data und verteilte Algorithmen
      • Machine Learning
      • Strukturierte Daten
      • Unstrukturierte Daten
    • Mathematik/operation Research
      • Algorithmen
      • Bayes'sche Statistik/Monte-Carlo-Methoden
      • Grafische Modelle
      • Mathematik
      • Optimierung
      • Simulation
    • Programmierung/Systemadministration
      • Back-End-Programmierung
      • Front-End-Programmierung
      • Systemadministration
    • Satistik/Visualisierung
      • Statistik
      • Umfragen und Marketing
      • Visualisierung
  • folgende Spezialisierungen:
    • Data-Business-Person: Fokus Business
    • Data Creative: Fokus gleichmäßig aufgeteilt
    • Data Developer: Fokus Programmierung
    • Data Researcher: vertieft auf Statistik

1.5 Anwendungen

  • erneuerbare Energien (Kap. 9)
  • Optimierung des Energiemanagements (Kap. 10)
  • wissenschaftliche Literaturauswertungen (Kap. 11)
  • zusammenhänge in Daten mit maschinellem Lernen identifizieren (Kap. 12)
  • Kundenzufriedenheit in der Automobilindustrie und Fahrerassystenzsystementwicklung (Kap. 13)

# KW 43, Thema: {term}`Zweig 2018`

http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Zweig-2018

Katharina A. Zweig: Wo Maschinen irren können. Verantwortlichkeiten und Fehlerquellen in Prozessen algorithmischer Entscheidungsfindung. Bertelsmann Stiftung (Hrsg.), 05.02.2018, DOI: 10.11586/2018006, https://www.bertelsmann-stiftung.de/de/publikationen/publikation/did/wo-maschinen-irren-koennen > Download (pdf)

Zweig-2018-Abb-4

Abbildung 4 aus Zweig 2018, S. 21, als Mindmap ... hier ein Versuch, die Abb. als KnowledgeGraph in einer Mindmap darzustellen

Phase 1: Algorithmendesign und Implementierung

  • REL_hatFehler
    • handwerkliche Fehler
      • Je mehr Anwender es gibt, desto wahrscheinlicher ist es, dass ein Fehler entdeckt wird
      • Um Fehler erkennen zu können, ist es vor allen Dingen wichtig zu wissen, wie der Algorithmus in welchem Fall reagieren sollte – die Problemspezifikation muss also bekannt sein.
      • Je mehr Personen Zugang zum Code haben, desto wahrscheinlicher ist es, dass einem von ihnen ein Fehler auffällt.
  • REL_hatAkteur
    • Wissenschaftler/Informatiker

Phase 2: Methodenauswahl

  • BT
    • Operationalisierung
      • REL_hatFehler
        • b Fehlende Passung von Operationalisierung und Daten
        • i Unpassende Daten für Fragestellung
        • e Mangelnde Datenqualität
    • Datensammlung
      • REL_hatAkteur
        • Datensammler (staatlich, wirtschaftlich, wissenschaftlich, NGOs)
    • Datenauswahl
      • REL_hatAkteur
        • Data Scientist
  • REL_hatFehler
    • unpassende Methode

Phase 3: Konstruktion des Entscheidungssystems

  • REL_hatFehler
    • j Unpassende Kombination von implementiertem Algorithmus und Daten
    • k Zu wenige Datenpunkte für Musteridentifikation
    • f Qualitätsmaß unpassend für Problemstellung

Phase 4: Einbetten in den gesellschaftlichen Kontext

  • REL_hatFehler
    • c Fehlinterpretationen
    • a Fehlende Erklärbarkeit
    • h Unintendierte Nebenwirkungen durch Interaktion von System und Mensch

Phase 5: Re-Evaluierung des Entscheidungssystems

  • REL_hatFehler
    • g Selbstverstärkende Feedbackschleifen

Phase 2-5

  • REL_hatAkteur
    • Data Scientist

Phasen 3-5

  • REL_hatAkteur
    • Entscheider (staatlich, wirtschaftlich, wissenschaftlich, NGOs)

Frick-DataGovernance

Messen und Beobachten

  • Wie?
    • Kontinuierlich / Regelmäßig
    • Durch Zielsetzung + Aktueller Stand
  • Wraum?
    • Verbesserung
    • Weiterentwicklung
    • Abweichungserkennung
    • Problemerkennung
    • Strategiereflexion

Technologie

  • Was muss betrachtet werden?
    • Datenschutz
    • Datensicherheit
    • Datenqualitätsmanagement
  • Wie gelingt die Umsetzung?
    • Bereitstellung geeigneter Werkzeuge
    • Schulungen für Mitarbeiter
    • Übersicht der Daten
    • Management der Metadaten
      • Bedeutung der Informationsobjekte
      • Prozessinformationen bzgl. Veränderung, Verknüprung, Zuordnung
      • Strukturangaben bzgl. Datentyp, Wertebereich, Qualität
      • Administrative Informationen über Erstellungszeitpunkt, Zugriffhäufigkeit, Berechtigung
  • Richtiges Data-Management
    • Warum?
      • Zentrale Datenspeicherung für entwickler
      • Klassifizierung u. Anreicherung der Daten
      • DataLake erstellung durch unstrukturierte Daten
    • Data Lineage (Herkunft)
      • Aus aggregierten Datensätzen die Ursprünglichen Datensätze bestimmen
    • Data Catalog
      • Beschreibung der gespeicherten Daten

Kommunikation

  • Wie?
    • Strukturierter Informationsaustausch
    • Frühzeitige Informationsweitergabe
    • Zielgruppenorientiert
    • Einhaltung von Richtlienien und Regeln
  • Umsetzung
    • Kommunikationsplan
      • Wer benötigt Informationen
      • Wer ist verantwortlich
    • Trainingsplan
      • Schulungsplan für involvierte Gruppen/Personen

DataQuality Management

  • Definition
    • Themenbereich der sich mit dem Arbeiten, mit qualitativ hochwertigen Daten befasst.
  • Warum?
    • Daten haben wirtschaftliches Potenzial
    • Daten sind oft fehlerhaft, widersprüchlich, unvollständig oder veraltet
  • Wie?
    • Validierung
    • Standardisierung
    • Bereinigung
    • Anreicherung

Data-Science / Wo Fehler passieren können

Wichtig:

  • Fehler der Phase 4 (Einbettung in den gesellschaftlichen Kontext)
    • Fehlinterpretationen, keine Erklärbarkeit, ausnutzen des Algorithmus
  • Fehler der Phase 1 (Algorithmendesign und Implementierung)
      • Handwerkliche Fehler Treten im Design und der Implementierung auf
  • Fehler der Phase 2 (Methodenauswahl)
    • Operationalisierungsfehler Datenerhebung Qualität der Daten Veraltete Daten Methodenauswahl
  • Fehler der Phase 3 (Konstruktion des Entscheidungssystems)
    • Auswahl eines Qualitätsmaßes: Sensitivität, Spezifizität, Akkuratheit
  • Fehler der Phase 5 (Re-Evaluation des Entscheidungssystems)
    • System verstärkt -> mehr Feedback -> System verstärkt Selbstverstärkende Feedbackschleife

Katharina Zweig (2018) "Wo Maschinen irren können"

Gefahren bei Entscheidungssystemen? Weapons of "Math Destruction"?

  • Intransparenz
  • Skalierbarkeit
  • Schadenspotential

Lösungsvorschläge

  • Algorithmen-TÜV
  • Data Science Berufsethik
  • Beipackzettel für Algorithmen
  • Validierung und externe Beforschbarkeit

Fazit

  • Komplexität und Fehleranfälligkeit
  • Encoding Values?

# KW 44, Thema: {term}`Frick 2021b`

http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Frick-2021b

Frick, D. (2021). Data Governance. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33403-1_6

Was ist Data Governance?

Assets

Roles, Tasks & Responsibilities

Processes

Architecture & Tools

Security

Compliance

6.1.2 Datenstrategie

Perspektiven

Treiber für Data Governance

6.2 Data Governance Framework

6.2.1 Strategie

6.2.2 Aufbauorganisation

  • Rollen im Data Governance

6.2.3 Richtlinien, Prozesse und Standards

  • Wirkung auf die verschiedenen beteiligten Elemente (Systeme, Menschen, Prozesse, Daten)

6.2.4 Messen und Beobachten

6.2.5 Technologie

  • Erklären Sie:
    • Metadaten
    • Data-Lineage, Data Provenance
    • ETL
    • Taxonomie
    • Data Catalog
    • Data Lake

6.3 Data Quality Management (DQM)

Prozessbereiche

Data-Profiling-Analyse

Data-Governance-KW44

Definition

  • Rahmenwerk für Umgang mit Daten im Unternehmen

Inhalt

  • Richtlinien
    • für Schutz
    • für Sicherheit
    • für Qualität
  • Einhaltung der rechtlichen Vorgaben

Dimensionen

  • Assets
    • Definition von Daten
  • Roles, Tasks, Responsibilities
    • Festlegung der Rollen
      • Data Owner
        • Senior-Manager mit Wissen über Datensemantik
      • Data Steward
        • Mitarbeiter aus Fachgebiet Daten und IT
      • Data Custodian
        • Spezialisiert auf Vermeidung von Datenverlust/-verfälschungen
  • Processes
    • Überwachung der internen Prozesse und Übertragungen
  • Architecture
    • setzt Standards für technische Umsetzung
  • Security
    • Standards von Datensicherung
    • Zugriffsrechte
    • bestimmen Vorgehensweise bei Sicherheitsverstößen
  • Compliance
    • Einhaltung des Datenschutzes

Perspektiven

  • System
    • Regeln für Datenarchitektur
    • technische Komponente
  • Prozess
    • Datenmanagement
      • Datenerhebung
      • Datenveräußerung
      • Datenlöschung
  • Strategie
    • Fokus auf Optimierung
    • Fokus auf Entwicklung neuer datengetriebener Geschäftsmodelle

Werte

  • Datennutzer
    • Flexibilität
    • Agilität
    • zeitnah
    • selbstständig Daten durchforsten
  • Datenanbieter
    • Konsistenz
    • Transparenz
    • Verfügbarkeit

Bestandteile

  • Vision
    • schwammig, ungefähres Ziel
  • Mission
    • Rolle im Unternehmen
    • Regeln entwickeln
  • Ziel
    • Klare, messbare Vision
  • übergeordnetes Ziel
    • Maximierung des geschäftlichen Nutzens
    • Übereinstimmung mit Unternehmenszielen

Häufige Prozesse

  • Aligning Policies, Requirements and Controls
  • Establishing Decision Rights
  • Establishing Accountability
  • Performing Stewardship
  • Managing Change
  • Defining Data
  • Resolving Issues
  • Specifying Data Quality Requirements
  • Providing Stakeholder Care
  • Communications and Program Reporting
  • Measuring and Reporting Value

Schritte zur Einführung

  • Ermittlung des Status Quo im Datenmanagement
  • Ziele definieren
  • Ursprüngliches Konzept + Roadmap
  • Zustimmung von Stakeholder & Sponsor
  • Konzept ausarbeiten und transformieren
  • Roadmap umsetzen
  • Ausweitung in andere Bereiche
  • Stabilisieren und Verbessern

# NEU 2024-01-16: Jens Kaufmann, Kap. 11: Fundamentale Analyse- und Visualisierungstechniken

jeweils ganz kurz erklären können

  • Boxplot
  • 11.2 Lineare Regression
  • 11.3.1 k-Nearest-Neighbors
  • 11.3.2 Naive Bayes
  • 11.3.3 Entscheidungsbäume
  • 11.3.3 Entscheidungsbäume
  • 11.4 Clustering-Verfahren
    • 11.4.1 Hierarchische Verfahren
      • Dendrogramm
    • 11.4.2 Partitionierende Verfahren
      • k-means
  • 11.5 Assoziationsanalyse

# KW 45, Thema: {term}`Kaufmann 2021`

http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Kaufmann-2021

Kaufmann, J. (2021). Fortgeschrittene Verfahren zur Analyse und Datenexploration, Advanced Analytics und Text Mining. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33403-1_12

jeweils kurz erklären und einordnen könnnen

  • Recherchiere: Unterschied überwachtes Lernen / unüberwachtes Lernen?
  • 12.2 Datenexploration und -darstellung
  • 12.3 Principal Component Analysis
  • 12.4 Random Forests
  • 12.5 Logistische Regression
    • Unterschied Regression und Logistische Regression?
  • 12.6 Entscheidungsbewertung
    • Konfusionsmatrix
  • 12.7 Zeitreihenanalyse
  • 12.8 Text Mining
    • Bag of Words
    • Term Frequency – Inverse Document Frequency (TFIDF)
    • Kosinus-Ähnlichkeit

KW45_Vortrag-dsci-kaufmann_2023_11_06

(JBusse: habe hier die Formeln entfernt, nicht relevant für die Klausur)

1. Principal Component Analysis

  • * Reduzierung komplexer Datenbestände
  • * Kombination von Variablen
  • * Erzeugung künstlicher neuer Variablen

2. Random Forest

  • * Besteht aus mehreren Entscheidungsbäumen
  • * Verbessert Klassifikationsgüte

3. Logische Regression

  • * Ermöglicht Schätzung von Wahscheinlichkeiten
  • * Basiert auf Umrechnung von Wahrscheinlichkeiten zu Chancen
  • * Verwendet S-förmige Sigmoidfunktion

4. Entscheidungsbewertung

  • * Erfolgt durch Analyse von Konfusionsmatrizen
  • * Vergleich von vorhersagen und tatsächlichen Werten

5. Zeitreihenanalyse

  • * Ermöglicht untersuchung von zeitlichen Entwicklungen
  • * Schätzung zukünftiger Werte

6. Text Mining

  • * Analyse natürlichsprachlicher Texte
  • * Ähnlichkeit zwischen texten durch Kosinus-Ähnlichkeit

# KW 45, Fortgeschrittene Verfahren zur Analyse und Datenexploration, Advanced Analytics und Text Mining.: {term}`Kaufmann 2021`

Hauptgruppen des Data Mining

  • Klassifikation (Objekte zuordnen zu Klassen)
  • Segmentierung/Clustering (Objekten in Gruppen einteilen)
  • Prognose (auf Basis bekannter Werte)
  • Assoziationsanalyse (Zusammenhang einzelner Elemente erkennen)

Datenexploration und -darstellung

  • zielführende graphische Darstellung der Daten
    • Für Menschen ist dies angenehmer zu analysieren als Tabellen mit numerischen Werten
    • betrachte große Datenmengen explorativ, aber nicht planlos
    • Erkennung von Mustern auf höherer Ebene mithilfe zusammenfassender Darstellungen
    • Können damit Hypothesen erstellen und passende Analyseverfahren der Daten auswählen

Logistische Regression

  • Die Zuordnung eines Datenpunktes zu einer Klasse wird ein Wahrscheinlichkeitswert gegeben
  • Zieht eine Entscheidungsgrenze (Linie) durch Datenpunkte
    • Entfernung von Entscheidungsgrenze bestimmt die Wahrscheinlichkeit der korrekten Klasseneinordnung
    • Klassen einordnen auf beiden Seiten der Entscheidungsgrenze

Random Forest

  • entsteht aus mehreren Entscheidungsbäumen zusammengefügt
    • Training Set (für eigentlichen Modell-Erstellung)
    • Validation Set (zur Verbesserung des Modells)
    • Test Set (zur Qualitätermittlung)
  • hat höhere Qualität als einzelne Entscheidungsbäume

Zeitreihenanalyse

  • beschreibt kausaler Zusammenhänge zwischen Zeitreihen
    • aus Längsschnittdaten der Variablen über einen Zeitraum
    • zerlege Längsschnittdaten in einzelne Komponenten
      • Trendkomponente, beschreibt langfristige Entwicklungen
      • saisonale Komponente, beschreibt wiederkehrende Muster
      • Zufallskomponente, ist Restgröße der Datenveränderung
      • Angabe Konfidenzintervalle, da mit zeitlicher Entfernung zum letzten Datensatz die Genauigkeit abnimmt
      • Visualisierung mithilfe Punkt-, Linien- oder Säulendiagramme
  • ist eine Prognose zukünftiger Werte

Text Mining

  • bag-of-words-Ansatz zum Strukturieren eines Texts
    • Für jedes analysierte Dokument hat die Tabelle eine Zeile
    • jedes Wort hat eine Spalte
      • In jeder Spalte wird die Häufigkeit des Worts notiert
    • diverse Fehlerquellen, welche Analyse erschweren, müssen entfernt werden
    • Ähnlichkeit von Dokumenten durch Kosinus des Winkels der entsprechenden Vektoren beschreiben

Entscheidungsbewertung

  • prüft die Qualität von Modellen
    • Confusion Matrix
      • False Positive Fraction, also Fehleinschätzungen
      • True Positive Fraction, also korrekte Einschätzungen
    • die Receiver- Operating-Characteristics-Kurve (ROC-Kurve) stellt Fractions in Abhängigkeit zu Schwellwert dar
      • je weiter ROC-Kurve von Diagonalen entfernt, desto präziser das Modell
      • größere Fläche unter ROC-Kurve bedeutet besseres Modell

Hauptkomponentenanalyse

  • auch „Principal Component Analysis“ (PCA) genannt
  • ermöglicht vielen Variablen in Graphen nachvollziehbarer darstellen
    • kombiniere bestehende Variablen zu einer neuen Variable
    • hat gleiche Eigenschaften in geringerer Dimension
    • ermöglicht Graphik-darzustellung im 3-dimensionalen-Raum von neuen Variablen und ihren Gruppen

Einleitung in Thema

  • Fragen für Datenanalyseverfahren
    • welche Daten stehen zur Verfügung vor?
    • welche Fragestellung sollen beantwortet werden?
    • welche Methode der Datenanalyse Verfahren sind sinnvoll?
  • Vorgehensweise in Datenanalyseverfahren
    • 4 Hauptgruppen des Data-Mining
    • erster Ansatz Datenexploration und -darstellung
    • zweiter Schritt Hauptkomponentenanalyse
      • danach weitere Datenanalyseverfahren

# KW 46, Thema: {term}`Maierhofer 2021`

http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Maierhofer-2021

Maierhofer, C.R. (2021). Information Data Models: Das Fundament einer guten Information Strategy. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33403-1_9

  • Was ist eine native Data Science Strategie?
  • 9.1 Drei Thesen aus Sicht eines Praktikers
    • Chaos
    • Hierarchien
    • selbstbeschützend
    • growth midset, fixed mindset
    • Knechtschaft der Applikationen / autonome Existenz von Daten
  • 9.3 Das Heute und seine Hürden
  • 9.4 Wie es dazu gekommen ist
  • 9.5 Die Enterprise Architektur
  • 9.6 Drei Formen der Informations-Architektur und deren Auswirkungen
    • 9.6.1 Das Gestern und leider noch das Heute. Der anwendungszentrierte Ansatz (The Application Centric Approach)
    • 9.6.2 Das Heute und die Morgendämmerung, der datengesteuerte Ansatz (The Data Driven Approach)
    • 9.6.3 Das überfällige Übermorgen, die datenzentrische Architektur (The Data Centric Architecture)
      • Data-Centric Manifesto
      • Abb. 9.4 Data Centric Architecture

Information Data Models - Herausforderungen und Lösungen

Das Heute und seine Hürden

  • - Aktuelle Probleme: Diskrepanz zwischen Selbstwahrnehmung und Realität in Unternehmens-Informationssystemen. - Interne Herausforderungen: Schwierigkeiten bei Leistungsverrechnung und Mangel an aussagekräftigen Performance Indicators.
  • - Abteilungsübergreifende Probleme: Komplikationen bei der Erfassung und Verarbeitung von Informationen zwischen verschiedenen Bereichen.
  • - Analyse: Notwendigkeit von mehr Transparenz und Flexibilität in den bestehenden Systemen.

Die Enterprise Architektur

  • - Moderne Ansätze: Notwendigkeit der Anpassung an das aktuelle Geschäftsmodell und datenzentrische Architekturen.
  • - Vorteile: Erhöhte Agilität und Anpassungsfähigkeit, effizientere Ressourcennutzung durch zentralisierte Datenstrukturen.

Abschluss und Fazit

  • - Zusammenfassung: Wichtigkeit der Modernisierung der Informationsarchitektur in Unternehmen.
  • - Ausblick: Bedeutung effektiver Data Science Strategien für den zukünftigen Erfolg von Unternehmen.

Wie es dazu gekommen ist

  • - Historischer Kontext: Entwicklung der IT-Abteilungen von Basisservice-Anbietern zu strategischen Partnern.
  • - Folgen: Budgets und Kontrolle verschoben sich in Richtung Fachbereiche, Applikationszentrierte Architekturen entstanden

Information Data Models

Informationen

  • Drei Thesen aus Sicht eines Praktikers
    • Allgemein
      • Chaotische Informations-Architektur
        • Anerkennung des Problems
        • Willen zur Veränderung
      • Hirarchie der Organisationsstruktur
        • Beschränkung
          • Weiterentwicklung
          • automatische Verarbeitungsmöglichkeiten
    • Bedeutung des Mindset
      • Growth Mindset
        • Wille zur Veränderung
        • Bringt Fortschritt
      • Fixed Mindset
        • Birgen in Bequemlichkeit
        • Fördert konservative Struktur
    • Native Data Science Strategie
      • Fundamentale Veränderung
      • Autonome Datenverarbeitung
      • Autonome Existenz von Daten
  • Informationen als entscheidender Wirtschaftsfaktor
    • KI als Paradebeispiel
      • Datensammlung im autonomen Fahren
      • Datensammlung in LMMS
    • Unternehmen sollten Daten höchste Priorität einräumen

# KW 47, Thema: {term}`Schmitz 2021`

http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Schmitz-2021

Schmitz, U. (2021). Big Data. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33403-1_1

  • 1.1 Grundlagen
    • Die 5 V
  • 1.2 Architektur und Bausteine
    • Abb 1.1 Klassifizierung von Big Data-Technologien
      • AUFGABE: Klassifizierung rekonstruieren
  • 1.3 Datengetriebene Geschäftsmodelle
  • 1.4 Exemplarische Einsatzmöglichkeiten

Big Data

Architektur und Bausteine

  • Baustein: Data Governance
    • Internationale rechtliche Rahmenbedingungen
      • EU-Datenschutzgrundverordnung
      • Internationale Unterschiede
        • EU vs US
        • Notwendigkeit Internationaler Standards
    • Berücksichtigung der Interessen einer Person
      • Deutsches Bundesdatenschutzgesetz
      • Wichtigkeit und Bedeutung personenbezogener Daten
    • Anonymisierung und Pseudonymisierung
      • Anonymisierung
      • Pseudonymisierung
        • AOL Skandal
  • Baustein: Datenkonnektivität
    • ETL-Prozess

Datengetriebene Geschäftsmodelle

  • Optimierung
    • Konzept: Bessere Auswertung existierender Datenbestände
    • Beispiele: Konvertierung alter Datenpools in neue Formate, etc.
  • Monetarisierung
    • Konzept: Schaffen neuer Produkte mit bestehenden Daten
    • Beispiele: Analyse-Dienste basierend auf Suchverhalten, etc.
  • Leverage
    • Konzept: Bestehende Geschäftsmodelle durch Daten verbessern
    • Beispiele: Intelligente Mautsysteme, etc.
  • Disrupt
    • Konzept: Produkte durch Sammeln neuer Datenbestände
    • Beispiele: Facebook, etc

Big Data-Geschäftsmodelle

  • Analytics-as-a-Service
    • Konzept: Bereitstellung von Analysen und Prognosen
    • Beispiele: Wetter, Social Media, etc.
  • Data-as-a-Service
    • Konzept: Sammeln, Aggregieren von Daten
    • Beispiele: Online-Werbung, Cookies, etc.
  • Data-infused Products
    • Konzept: Aufwertung bestehender Produkte durch Daten
    • Beispiele: Intelligente Stromzähler, etc.
  • Datenmarktplätze und Daten-Aggregatoren
    • Konzept: Plattformen für Verkauf und Nutzung von Daten
    • Beispiele: Marktforschungs- und Beratungsunternehmen, etc.

1.4 Exemplarische Einsatzmöglichkeiten

Social Media

  • Web 2.0
    • Mitgestaltung von Inhalten durch Nutzer in sozialen Netzwerken, Blogs usw..
    • Nutzung für Marketing und PR, interne Kommunikation im Unternehmen. z.B. über Twitter, Facebook oder interne Wikis.
    • Entwicklung von Strategien zur Positionierung von Unternehmen auf Plattformen. Hauptsächliche Inhalte davon sind:
      • Bekanntmachung von Inhalten
      • Kontakt zu Nutzern
  • Proaktiver Ansatz
    • Setzt auf direkte Kommunikation (zB. Facebook, Blogs).
    • Kunden können aktiv in Marketingaktivitäten wie Produktgestaltung durch Crowdsourcing einbezogen werde.
    • Dieser Ansatz zielt auf langfristige Kundenbeziehungen und verspricht größeren Erfolg im Vergleich zum reaktiven Ansatz.
  • Reaktiver Ansatz
    • Grundsätzlich abwartende Haltung.
    • Überwachung von Social Web nach Feedback zum Unternehmen.
    • Unternehmen reagiert gezielt auf Kritik, entgegenwirken und aufklären.
    • Hauptsächlich um Nutzverhalten zu beobachten und Feedbacks zu überwachen.
    • Zudem werden Social Media Guidelines erstellt, um Mitarbeitern klare Richtlinien für ihr Verhalten im Social Web zu geben, einschließlich Kommunikation mit Dritten, Datenschutz und Urheberrecht.

Marketing und Vertrieb

  • Unternehmensbeispiel Telefonica
    • Telefónica, ein spanischer Telekommunikationskonzern führte Smart Steps ein:
      • sammelt ortsbezogene Daten von Nutzern
      • anonymisiert die Daten
      • verkauft an Dritte
    • Nutzung: Besucherzahlen zu bestimmten Zeiten um Personal zu optimieren. Mobiltelefonhersteller verbesserte dadurch Empfangsleistung.

Forschung und Entwicklung

  • Unternehmensbeispiel UPS
    • Entwickelten Strategie zur Überwachung von Lieferungen, Routenoptimierung und Kostenreduzierung.
    • Sensorsystem in jedem Fahrzeug:
      • Geschwindigkeit
      • Richtung
      • Benzinverbrauch
      • weitere technische Parameter
    • kombiniert mit GPS-Daten ermöglicht dies:
      • Analyse von Fahrverhalten
      • Routenoptimierung
      • vorausschauende Wartung
    • Folgen daraus:
      • Was zu einer Einsparung von 85 Millionen Meilen Wegstrecke pro Tag geführt hat, was etwa 30 Millionen Dollar pro Tag entspricht. Kunden haben zusätzlich mehr Einsicht in ihre eigenen Lieferdaten (z.B. Lieferzeit, Standort) was zu mehr Kundenzufriedenheit führte.

Finanz- und Risikocontrolling

  • Unternehmensbeispiel United Overseas Bank
    • Prozess zur Bewertung des Gesamtrisikos wurde drastisch verbessert. Dabei werden über 100.000 marktrelevante Parameter analysiert.
      • Früher: 18 Stunden für ca. 8,8 Milliarden Berechnungen
      • Heute: wenige Minuten
    • Für die Problemlösung hat die Bank eine analytische Software-Lösung sowie eine In-Memory- Technologie eingeführt.
    • Diese Big Data-Technologien ermöglichen es sogar, neue marktrelevante Faktoren während der Berechnungen einzubeziehen.

Produktion, Service und Support

  • Unternehmensbeispiel Vestas
    • Analyse für potentielle Standorte von Windkraftanlagen wurde drastisch beschleunigt und Stromerzeugungskosten pro kWh. wurden verringert. Weiterhin wurden die Ausfallzeiten der Anlagen durch die Berücksichtigung von materialbelastenden Turbulenzen minimiert.
      • Früher: mehrere Wochen
      • Heute: wenige Stunden
    • Die Analysen umfassen verschiedene Faktoren wie Geländehöhe, Satellitenbilder, Bewaldung, Stromnetzanbindung und historische Wetterdaten.

KW47 Big Data: Bausteine

Datenhaltung

  • Hadoop
    • Open-Source Framework
    • ermöglicht parallele Verarbeitung großer Datenmengen
      • mittles Map-Reduce-Methode
        • ermöglicht das Aufteilen großer Datenmengen in kleinere Teilmengen
    • nutzt performante Computercluster
      • Netz aus miteinander verbundenen Computern mit einem Access-Point
      • Rechenlast für eine Aufgabe wird auf mehrere Computer verteilt
    • keine festgelegte Struktur und Semantik der Dateien nötig
    • Hadoop Distributed File System (=HDFS)
      • bringt Hochverfügbarkeit mit sich
        • auch bei Ausfall einzelner Komponenten bleiben alle Funktionen bestehen
        • die Daten werden dafür in dem Cluster gespeichert
    • Vorteile
      • hohe und einfache Skalierbarkeit
      • Open-Source Framework
        • allgemeine Kosten sind niedriger als bei Software-Herstellern

Datenverarbeitung

  • schnelle Verarbeitung mit In-Memory-Technologie
    • Daten werden nicht mehr auf der Festplatte gespeichert sondern im Arbeitsspeicher
      • ABER: im RAM speichern ist sehr aufwendig
      • LÖSUNG: Temperatur-Modell
        • Hot-Daten: oft verwendete Daten
          • speichern im RAM
        • Cold-Daten: selten verwendete Daten
          • speichern auf Festplatten
  • Datenverarbeitungsmethoden
    • Text-Mining
      • Analyse von Fließtext(=unstrukturierte Datenmengen), um Muster zu erkennen
        • PROBLEM: jede natürliche Sprache hat eine andere Grammatik und Semantik
        • LÖSUNG: Natural Language Processing; führt die semantische Analyse des Fließtextes durch
        • Verwendungszweck: Social Media Marketing
    • Data Mining
      • versch. Methoden, um Informationen aus den Daten zu erhalten
        • Segmentierung: Bildung von kleinen Gruppen
        • Abweichungsanalyse: Soll-Werte werden mit Ist-Werten verglichen und dementsprechend sortiert
        • Klassifikation: Daten in versch. Klassen aufteilen und sortieren
        • Prognose: Vorhersage auf bereits gewonnen Daten treffen
        • Assoziationsanalyse: Suche nach anwendbaren Regeln
        • Sequenzanalyse: Suche nach Relationen untereinander

Datenvisualisierung

  • mit der Big-Data Ära brauchte man neue Darstellungstypen, um die Daten...
    • ...anschaulich zu gestalten
    • ...eventuelle Messfehler zu erkennen
    • Beispiele
      • Donut-Cloud
        • https://bibaccess.fh-landshut.de:2673/chapter/10.1007/978-3-658-33403-1_1#Fig4
      • Flare-Chart
        • https://bibaccess.fh-landshut.de:2673/chapter/10.1007/978-3-658-33403-1_1#Fig5
      • Dashboard
        • https://bibaccess.fh-landshut.de:2673/chapter/10.1007/978-3-658-33403-1_1#Fig6

Textquelle

  • https://bibaccess.fh-landshut.de:2673/chapter/10.1007/978-3-658-33403-1_1

# KW 48, Thema: {term}`Quix 2021`

http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Quix-2021

Quix, C. (2021). Data Engineering. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33403-1_5

  • 5.1 Aufgaben des Data Engineering
    • CRISP-DM
    • Data Wrangling
  • 5.2 Architekturen zum Daten-Management
    • Data-Warehouse
    • ETL
    • Data-Lake
  • 5.3 Datenmodellierung und Metadaten-Management
  • 5.4 Datenaufbereitung und Datenintegration
    • Exploration & Profiling
    • Harmonisierung & Bereinigung
    • Identifikation der Quell-Schemata
    • Abgleich der Quell-Schemata
      • Schema-Matching
    • Definition eines integrierten Schemas
    • Mapping der Quell-Schemata auf integriertes Schema
    • Daten zusammenführen
    • Feature-Selektion und -Konstruktion
  • 5.5 Datenbank-Management-Systeme: SQL, NoSQL und Big Data
    • NoSQL
      • Key-Value
      • Dokument-orientiert
      • Wide Column
      • Graph-orientiert

5.4 Datenaufbereitung und Datenintegration

Datenintegration

  • Abgleichen der Datenshemata
    • Ähnlichkeiten (Wissen, Korrespondenz) mit Shema Matching Tools erfassen
    • Beziehungen
      • Vergleich von Zeichenketten
      • mit Wörterbuch vergleichen
    • Datentypen
      • Ausschluss von Korrespondenzen
    • Wertebreich
      • Histogramme analysieren
      • 2 Attribute = gleiche Werte (zB Alter)
    • Struktur
      • Graph- oder Baumstruktur
      • Aus Ähnlichkeiten Nachbarn ableiten (Adresse = adresse)
    • Referenzmodell
      • Ableiten durch Lokig oder Maschinen Learning
      • Deep Learning: gut für komplexes
      • Shema Matching: fehlende Trainingsdaten
    • verschieden Ansätze = menschen müssen aber überprüfen
  • Integrierte Schemata
    • Quellenorientiert
      • Vereinigungsmenge der Quellshemata
      • Berücksichtigung vorheriger Schritte
      • Unterstützung der Werkzeuge möglich
    • Anwendungsorientiert
      • Ähnlich der Top-Down_Datemodellierung
      • Definiert durch geplante Anwendung
      • Vorteil: besser passende Datenmodelle, Informationslücken erkennbar
  • Mapping integrierter Shemata
    • Daten aus Datenquellen extrahieren und einheitlich übernehmen
      • Defieniren als Anfrage
      • über ein Werkzeug möglich
    • Notwendige Vorarbeit schon getroffen
    • Datenintegrationswerkzeuge
      • Datentransformation und Zusammenführung
      • Unterstützung bei einem Prozess aller Schritte
  • Datenzusammenführung
    • Vorherige Schritte auf der Schemaebene
    • Konkrete Zusammenführung von Datensätzen
    • Record Linkage: welche Datensätze entsprechen dem selben Objekt

Data-Lake-Architecture

Definition

  • Data-Lake-Architecture is a framework or approach to designing a central repository to store and manage data in its original format, without any predefined schema.
    • A database schema refers to the logical and visual configuration of the entire relational database.

However, that stability like in case with Data-Warehouse is not always the case with big data projects. Most big data systems rely on schema-on- Read concept in the foreground.In contrast, the Data-Warehouse system follows the schema-on-write approach.

  • Schema-on-Read means that the data is initially stored without a predetermined schema.
  • Schema-on-Write is a traditional approach where data is first structured and transformed before being loaded into a data storage system.
    • The schemas of the data sources and the data warehouse database are known before data is written to the Data-Warehouse database using ETL processes.

  • However, the schema-on-write model is not suitable for big data because there is a larger number, more heterogeneity and greater agility in data sources
    • In contrast to Data-Warehouse systems, with data lake systems the data is transferred to the storage level of the system in its original form. Such an approach suits big data and NoSQL systems, which typically do not require the definition of a schema before data can be stored.
  • Therefore, a different architecture should be chosen for data provision in big data projects that allows greater flexibility.
    • The data should be stored in the data lake in its original form and a transfer to a uniform scheme as with Data-Warehouse systems is not intended here.

Although in addition to the actual data, metadata should also be extracted from the data sources or recorded separately.

  • Metadata is also important for query processing in the data lake system. An integrated query interface doesn't help if you don't know which data management systems contain the desired data.
  • Metadata management is even more important in data lake systems than in data warehouse systems. While in data warehouse systems, the mostly relational database management systems can provide sufficient self-information about the schemas of their databases, this is not always the case in the context of Data-Lake-Systems due to the unstructured data.

Datenmodellierung und Metadaten-Management

Datenmodellierung

  • Top-Down-Ansatz
    • konzeptuelles Datenmodell
    • Datenmodell wird verfeinert
    • Umsetzung als physisches Modell in einem Datenbank-System
  • Bottom-Up-Vorgehen
    • existierende Datensätze
    • ableiten von logischen Datenmodellen
    • Beschreibung von semantischen Zusammenhängen in einem konzeptuellen Datenmodell
  • Data Profiling
    • Schemaextraktion
      • es reichen Angaben die, beispielsweise für die Erstellung eines relationalen Schemas erforderlich sind
      • Erkennung von Attributen
        • Integer
        • string
        • usw.
    • Data Profiling
      • Erkennung genauerer Wertebereiche oder Muster in Datensätzen
      • z.B. eine Spalte "Alter" hat nur Integer-Werte von 0 bis 120 oder eine Spalte "Datum" hat eine Zeichenkette mit dem Muster "DD.MM.YYYY"
    • mit Data Profiling werden sehr schnell fehlerhafte Daten und Ausreißer erkannt => deswegen relevant für Datenaufbereitung
  • Datenmodell
    • Erstellung eines logischen Datenmodells
      • direkte Auslesung von Schemata aus relationalen Datenbank-Systemen
    • Beschreibung von Datensätzen
      • zumindest Strukturen, Verknüpfungen und Regeln bzw. Einschränkungen(Constraints) von Daten
    • Modellierungssprache

Metadaten-Management

  • Übersicht der vorhandenen Daten
  • Aufbau und Verwaltung von Verzeichnis innnerhalb eines Unternehmens => Teil der Data Governance
  • So ein Verzeichnis im Data-Lake-System Metadaten die dabei für einen Datensatz erfasst werden sollen:
    • Inhalt: Schlagworte, Themen, Beschreibung
    • Herkunft: Quellsystem, Kontext der Datenerfassung (z. B. Ort, Zeit)
    • Datenqualität: Messwerte für Datenqualitätseigenschaften (z. B. Vollständigkeit)
    • Kontakt: Ansprechpartner für die Datenquelle, Verantwortliche
    • Verfügbarkeit: Zugriffsmöglichkeiten, Lizenzinformationen, Nutzungseinschränkungen
  • Metadatenmodell = individuell für jedes Unternehmen
    • Anpassung für individuellen Bedürfnisse mit bereits entwickelte, ausgereifte Modellen

ersteHälfte-Architekturen_zum_Daten-Management

Data-Management-Systeme in Unternehmen

  • Heutzutage Einsatz vieler unterschielicher Systeme
  • auch NoSQL -Datenbank-Management-Systeme
  • Überwiegend jedoch relationale Systeme ( SQL )
  • Soll Ko-Existenz von verschiedenen Architekturen und Systemen gewährleisten

Data-Warehouse-systeme

  • Sollen innerhalb eines Unternehmens die Daten aus verschiedenen operativen Systemen zusammenzuführen.
  • Daten werden Durch ETL-Prozesse extrahiert und im Data-Warehouse bereitgestellt.
  • Falls man Daten verschiedener Nutzergruppen trennen möchte, wird das Data-Warehouse in “ Data Marts ” unterteilt.
  • Sind vor allem für Anwendungsfälle geeignet:
    • in denen die Datenstrukturen der Datenquellen und benötigten ETL-Prozesse sehr stabil sind und sich nur selten ändern
    • wenn man langfristige Zahlen miteinander vergleichen will

OLTP (On-Line Transaction Processing)

  • z.B.Erfassung einer Bestellung oder Buchung einer Rechnung

OLAP (On-Line Analytical Processing)

  • z.B. Analytische Anfragen, alle Verkaufsaktivitäten in einem Quartal

ETL-Prozesse (Extraktion-Transformation-Laden)

  • Sorgen für Aufbereitung der Daten aus den heterogenen OLTP-Systemen
  • Können heutzutage die Daten im Data-Warehouse in nahezu Echtzeit aktualisieren
  • Erstellung sehr aufwendig

Datenbank-Management-Systeme: SQL, NoSQL und Big Data

Datenbank-Management-Systeme (DBMS)

Eigenschaften

  • Über Schnittstelle mit definierter Sprache (z.B. SQL) Daten
    • Anlegen
    • Löschen
    • Ändern
    • Abfragen
  • Unterstützung von Transaktionen
  • Gewährleistung der Persistenz von Daten

Geschichte

  • 1970er: Ursprung (RDBMS)
    • SQL als Datenbanksprache
    • Vorteile
      • Datenintegrität
      • Konsistenz
      • Transaktionssicherheit im Mehrbenutzerbetrieb
    • Probleme relationaler DBMS im Kontext verteilter Anwendugen
      • CAP-Theorem (Consistency, Availability, Partition Tolerance)
        • Anforderungen an verteiltes System
        • Gleichzeitige Gewährleistung aller drei Eigenschaften unmöglich → Priorisierung zweier Punkte
        • Partition Tolerance bei stark verteilten Anwendungen besonders wichtig (Fehlertoleranz gegenüber Netzwerkunterbrechungen!)
        • Problem: klassische relationale Systeme mit keiner oder nur eingeschränkter Verteilung fokussieren sich auf Consistency und Availability
      • Inkompabilität der Datenmodelle
        • Normalisierte Relationen (RDBMS)
          • Normalisierung: Aufteilung großer, redundanter Tabellen in kleinere, zusammenhängende Tabellen → bessere Organisation von Daten und effizienteres Abfragen möglich
        • Einfache Zusammenführung von Inhalten über Join-Abfragen
        • Problem: Änderung von Daten über mehrere Relationen erfordert komplexe Anwendungslogik und Nutzung von Transaktionen
        • Web-Anwendungen: Nutzung objekt-orientierter oder anderer verschachtelter Datenstrukturen (z.B. JSON) und Arbeit mit komplexen Objekten (z.B. Nutzerprofil)
  • 1990er: objekt-orientierte Datenmodelle oder XML
    • Erweiterung der Funktionalität relationaler Systeme
      • Objekt-relationale Funktionen (z.B. Vererbung)
      • XML-Datentyp mit entsprechender Abfragemöglichkeiten
  • 2000er: kostengünstige Skalierbarkeit und Fehlertoleranz bei stark verteilten Anwendungen gewinnt mit steigender Popularität von großen Internetplattformen (Amazon, Ebay und Google) an Bedeutung
    • Entwicklung von NoSQL-Systemen
      • Ein für Anwendungen besser passendes Datenmodell als SQL
      • Direkte Unterstützung eines verteilten Daten-Managements über mehrere Server-Knoten → Fehlertoleranz gegenüber Netzwerkpartitionierungen
      • Nach CAP-Theorem: Wahl zwischen jederzeit konsistenten Datenbeständen oder Verfügbarkeit → Verfügbarkeit
      • Zwischenzeitlich inkonsistente Datenbestände als Folge (Eventual Consistency)
      • Datenmodelle der NoSQL-DBMS
        • Key-Value
          • Datenobjekte unter Schlüssel gespeichert
          • Zugriff auf Datenobjekte über Schlüssel oder auch einfache Abfragemechanismen möglich
          • Datenobjekte haben häufig baumartige Struktur (z.B. JSON-Dokument)
        • Dokumenten-orientiert
          • Ablage von Daten als JSON-Dokumente
          • System unterstützt weitergehende Abfragemöglichkeiten über Struktur der Dokumente
          • Bsp.: MongoDB als populärstes NoSQL-System
        • Wide Column
          • Dem relationalen Modell sehr ähnlich → vergleichbare Abfragemöglichkeiten wie SQL
          • Dynamische Anpassung der Spalten in Datensätzen möglich → nicht alle Datensätze müssen gleiche Struktur haben
        • Graph-orientiert
          • Abspeicherung von Graphen mit komplexen Knoten und Kanten möglich
          • Knoten und Kanten können verschiedene Typen und Attribute haben
          • Mathematische Eigenschaften von Teilgraphen (z.B. Konnektivität, kürzeste Wege) testen und nach bestimmten Mustern im Graphen suchen mithilfe von Abfragen
      • Vor- und Nachteile
        • Meist nicht erforderlich ein Schema für Daten zu definieren → direkte Nutzung möglich (Achtung: gewisse Modellierung oder Strukturierung von Daten unausweichlich)
        • Mehr Flexibilität und Skalierbarkeit
        • Wanderung eines Teils der Logik zur Überprüfung der Datenstruktur oder Integrität neuer Daten vom DBMS in Applikation → Erhöhung von Komplexität der Anwendungen und Implementierungsaufwand
  • Heute
    • Meiste Systeme in einer kostenlosen Open-Source-Variante
    • Kostenpflichtige „Enterprise Editions“ für weitere Funktionalität

Data Engineering

Data Engineering ist in der Fachliteratur nicht genau definiert und wird oft im Kontext der Begriffe „Data Management“ und „Information Engineering“ verwendet.

  • Datenmanagement ist ein ganzheitliches Konzept zum Umgang mit digitalen Daten, das alle Schritte vom Erheben, über das Speichern und die Verarbeitung bis hin zur Archivierung und Löschung umfasst.
  • Information Engineering ist ein Ansatz, der darauf abzielt, Informationssysteme effektiv zu entwickeln, zu implementieren und zu verwalten, um die Geschäftsprozesse zu unterstützen.

Beispiele für Vorgehensmodelle in der Datenanalyse, die verdeutlichen, womit sich das Data Engineering beschäftigt.

  • KDD: Knowledge Discovery in Databases
    • Verständnis des Problems: Identifikationder Fragestellung, die durch die Analyse gelöst werden soll.
    • Datenauswahl : Auswahl der relevanten Datenquellen, die für die Analyse verwendet werden sollen
    • Datentransformation: Umwandlung der vorverarbeiteten Daten in ein für die Analyse geeignetes Format.
    • Datenmining: Anwendung von Datenmining-Techniken, um Muster, Trends und Wissen aus den vorverarbeiteten Daten zu extrahieren.
    • Musterbewertung: Bewertung der extrahierten Muster und Trends hinsichtlich ihrer Relevanz für die gestellte Fragestellung.
    • Wissensdarstellung: Darstellung des extrahierten Wissens in einer für die Entscheidungsfindung verständlichen Form.
    • Wissensnutzung: Integration des extrahierten Wissens in den Entscheidungsprozess der Organisation.
  • CRISP-DP: Cross Industry Standard Process for Data Mining
    • Geschäftsverständnis: Die Klärung des Umfangs und die Festlegung eines vorläufigen Plans zur Erreichung der Geschäftsziele,
    • Datenverständnis: Die Identifizierung von Datentypen, die Bewertung der Datenqualität und das Verständnis von Beziehungen innerhalb der Daten.
    • Datenpräparation: Das Reinigen, Transformieren und Auswählen von Daten, um einen geeigneten Datensatz für das Modellieren zu erstellen
    • Modellierung: Die Auswahl geeigneter Modellierungstechniken, die Identifizierung des am besten geeigneten Modells zur Erreichung der Geschäftsziele.
    • Bewertung: Das Testen der Modelle an unabhängigen Datensätzen und die Sicherstellung, dass die Ergebnisse gültig und zuverlässig sind.
    • Bereitstellung: Die Integration des Modells in Geschäftsprozesse
  • Data Engineering beschäftigt sich vor allem mit den Aufgaben , die vor der eigentlichen Datenanalyse stattfinden.
    • Domain Understanding: Ein detailliertes Verständnis der Daten entwickelt sich nur durch ein Verständnis der Prozesse im Unternehmen, die Daten produzieren und konsumieren.
    • Die Formalisierung des Verständnisses über die Daten in einem Datenmodell: Die Formalisierung des Verständnisses über die Daten und die Erkennung von Verknüpfungen und Regeln ermöglicht die Beschreibung einer Struktur für neu zu erfassende Daten.
    • Die Aufbereitung und Integration von Daten: Die Umwandlung der Datenmenge in das gewünschte Format, erfolgt mithilfe verschiedener Methoden und Werkzeuge.
    • Die Definition einer effizienteren Daten-Management-Architektur: Eine Daten-Management-Architektur ermöglicht die Zusammenführung und Verknüpfung von Daten in einem Unternehmen bei einer intensiven Kommunikation mit verschiedenen Unternehmensbereichen

# KW 49, Thema: {term}`Barton & Kokoev 2021`

http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Barton-Kokoev-2021

Barton, T., Kokoev, A. (2021). Text Mining bei einer wissenschaftlichen Literaturauswertung: Extraktion von Schlüsselwörtern zur Beschreibung von Inhalten. In: Barton, T., Müller, C. (eds) Data Science anwenden. Angewandte Wirtschaftsinformatik. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33813-8_11

  • 11.3 Extraktion von Schlüsselwörtern
    • Rapid Automatic Keyword Extraction (RAKE)
  • 11.4 Extraktion von Schlüsselwörtern für eine Literaturauswertung zu „Explainable AI“

Text-Mining bei einer wissenschaftlichen Literaturauswertung

2. Beispiel: Explainable Artificial Intelligence

1. Was ist Explainable AI?

  • KI-Systeme, die ihre Entscheidungsfindung erklären können

2. Verstehen

  • „Intellektuelle Erfassung des Zusammenhangs“
  • Informationen filtern & gruppieren
  • Bsp.: Voraussetzungen, Aktionen, Ziele, ...

3. Erklären

  • „Die Ursachen eines beobachteten Sachverhaltes durch eine sprachliche Darlegung seiner logischen und kausalen Zusammenhänge verständlich zu machen“
  • Lösung sprachlich korrekt umsetzen und wiedergeben

4. Anwendung in der Gesellschaft

  • Positive Reaktion im technischen & wissenschaftlichem Bereich?
  • Negative Reaktion in der Gesellschaft bzw. bei Privatpersonen?

KW 49

Extraktion von Schlüsselwörtern: Eine Einführung in Rapid Automatic Keyword Extraction (RAKE)

  • Was ist RAKE ? Rapid Automatic Keyword Extraction auch bekannt als RAKE ermöglicht das zusammenfassen eines Textes mittels Schlüsselwörtern.
    • •Textanalyse und Informationsextraktion
    • •Suchmaschinenoptimierung (SEO)
    • •Dokumentensummarisierung
    • •....Vielen anderen bereichen
  • Schlüsselwortextraktion mit RAKE
    • Schlüsselwörter beschreiben prägnant den Inhalt, unabhängig von Sprache und Domäne
    • 1. Anwärter für Schlüsselwörter bestimmen
      • • Der Text wird zuerst in einzelne Wörter oder Phrasen aufgeteilt, ein Vorgang, der als Tokenisierung bekannt ist.
      • • Häufig verwendete Wörter wie "und", "die", "ist" usw., die als Stoppwörter bezeichnet werden, werden entfernt. Diese Wörter werden in der Regel bei der Schlüsselwortextraktion ignoriert, da sie nicht wesentlich zum Gesamtverständnis beitragen.
      • • Die verbleibenden Wörter oder Phrasen werden als potenzielle Schlüsselwortkandidaten betrachtet.
      • • Verwendung von Stoppwörtern und Trennzeichen zur Aufteilung des Dokuments in Wörter.
      • • Eine Sequenz von benachbarten Wörtern ohne Irrelevanz wird als Schlüsselwortanwärter betrachtet.
      • • Schlüsselwortanwärter : Schlüsselwortanwärter sind Wörter oder Phrasen, die im Rahmen eines Algorithmus zur Schlüsselwortextraktion als potenzielle Schlüsselwörter betrachtet werden.
    • 2. Kennzahl für Schlüsselwörter ableiten
      • Jeder Kandidat wird anhand seiner Häufigkeit im Text und seines Vorkommens in Verbindung mit anderen Wörtern bewertet. Die Idee ist, dass wichtige Schlüsselwörter wahrscheinlich häufig auftreten und in sinnvoller Nähe zu anderen Wörtern stehen.
      • RAKE leitet die Kennzahl K(w) für Schlüsselwortanwärter ab.
      • Eine Matrix wird erstellt, wobei Zeilen und Spalten durch Schlüsselwortanwärter gebildet werden.
      • Durch Matrixelemente werden Worthäufigkeit freq(w) und Wortmaß deg(w) ermittelt. K(w) = deg(w) / freq(w)
    • 3. Schlüsselwörter festlegen
      • • Endgültige Schlüsselwörter werden ausgewählt
      • • -- > die Schlüsselwortanwärter mit den höchsten Werten für die Kennzahl K(w)
      • • Diese repräsentieren die bedeutendsten Wörter zur optimalen Beschreibung des Dokumentinhalts.
  • Fazit
    • RAKE ist eine effektive Methode zur automatischen Extraktion von Schlüsselwörtern.
    • Durch klare Strukturierung von Schlüsselwortanwärtern und Ableitung einer aussagekräftigen Kennzahl.
    • Sprach- und domänenunabhängigkeit ermöglicht RAKE eine effiziente Analyse und Zusammenfassung von Dokumentinhalten.

KW49_3_2024-01-14

Barten & Kokoev: Extraktion von Schlüsselwörtern

RAKE: Rapid Automatic Keyword Extraction

  • Wird benutzt um Schlüsselwörter zu bestimmen
  • Kann sich um einzelne Wörter oder Wörterreihen handeln
  • Beschreiben den Inhalt des Dokumentes
  • Entfernen Punktation und Stoppwörter

Geht in 3 Schritten vor:

  • 1) Anwärter für Schlüsselwörter Bestimmen
    • Stoppwörter und Trennzeichen entfernen
    • Sequenz aus Wörtern von Relevanz werden zu Schlüsselwortanwärtern
  • 2) Kennzahl für Schlüsselwörter K(w) ableiten
    • Kennzahl für alle Anwärter wird über Worthäufigkeit und Wortmaß bestimmt
    • Erstellen einer Matrix:
      • Zeilen und Spalten sind Anwärter
      • Matrixelement (Kandidat, Kandidat) bestimmt Worthäufigkeit freq(w)
      • Worthäufigkeit ist Wert wie oft ein Anwärter auftaucht
      • Matrixelement (Kandaidat, AndererKandidat) zeigt wie oft zwei Anwärter gemeinsam erscheinen
      • Summe aller Zeilen Kandidat ergibt dann Wortmaß deg(w)
    • Wortmaß deg(w) entspricht Anzahl gemeinsam auftretender Anwärter + Worthäufigkeit freq(w)
    • Die Kennzahl K(w) ergibt sich durch das dividieren von dem Wortmaß deg(w) durch die Worthäufigkeit freq(w)
  • 3) Schlüsselwörter festlegen
    • Schlüsselwörter sind Anwärter mit höchster Kennzahl K(w)

# KW 50, Thema: {term}`Peuker & Berton 2021`

http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Peuker-Berton-2021

Peuker, A., Barton, T. (2021). Empfehlungssysteme und der Einsatz maschineller Lernverfahren. In: Barton, T., Müller, C. (eds) Data Science anwenden. Angewandte Wirtschaftsinformatik. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33813-8_6

Klassifikation von ES

6.1 Einleitung

  • Nutzer-Objekt-Matrix

6.2 Kollaborative Empfehlungssysteme

  • 6.2.1 Ansätze
    • nutzerbasierten Ansatz
    • objektbasierten Ansatz
  • 6.2.2 Methoden
    • Cosinusähnlichkeit
    • Clustering
    • Klassifizierung

6.3 Inhaltsbasierte Empfehlungssysteme

  • 6.3.1 Ansatz
    • Objektprofile
    • Nutzerprofile
    • Filterkomponente
  • 6.3.2 Methoden
    • TF-IDF (Term Frequency times Inverse Document Frequency)

6.4 Weitere Konzepte

  • 6.4.1 Demografische Empfehlungssysteme
  • 6.4.2 Wissensbasierte Empfehlungssysteme
  • 6.4.3 Hybride Empfehlungssysteme

6.5 Aktuelle Entwicklungen

KW 50 Demographische Empfehlungssysteme

Funktionsweise

  • Einordnung in Gruppen
  • Basiered auf demographischen Daten
  • Empfehlungen basierend auf Gruppenzuordnung

Vorteile

  • Einfache Erhebung der Daten
  • Erforschung von Nischen
  • Effizient bei großer Nutzerzahl

Nachteile

  • Erfordern persönlicher Daten
  • Keine Empfehlungen außerhalb eingeordneter Gruppe

Empfehlungssyteme und der Einsatz maschineller Lernverfahren

KW50_6.5: Aktuelle Entwicklungen

  • Konzepte und Ansätze als Anwendungsgrundlage
    • Stetige Weiterentwicklung der anzuwendenden Methoden
    • Besondere Aufmerksamkeit für Methoden im Bereich des maschinellen Lernens
  • Methoden im Bereich des maschinellen Lernens
    • Untersuchung des Einsatzes von Methoden für Empfehlungssysteme
    • Bayes'sche Methoden und Entscheidungsbäume für Empfehlungsgenerierung
    • Betonung auf geringere Komplexität dieser Methoden
  • Entwicklung in den letzten Jahren
    • Zunehmender Einsatz von Deep Learning-Methoden
    • Erfolgreiche Beispiele von Unternehmen wie Google, Facebook und Amazon
    • Veröffentlichung von Amazon's Deep Learning Framework DSSTNE unter Open-Source-Lizenz
  • Forschungsdiskussion zu Deep Learning
    • Vergleich von Deep Learning mit herkömmlichen Methoden in Wettbewerben
    • Häufige Übertreffen von bestehenden Verfahren in Bezug auf Performance oder Vorhersagegenauigkeit
    • Beobachtung, dass herkömmliche Methoden in den meisten Fällen erfolgreich sind
    • Mögliche Ursachen, wie Laufzeitverhalten und Datenvolumen für das Training von neuronalen Netzen
  • Training von neuronalen Netzen und Datenvolumen
    • Unterschiede zwischen Forschung und Wettbewerben hinsichtlich Datenvolumen
    • Ressourcenschonendere Methoden in Wettbewerben aufgrund großer Datensätze
    • Lange Rechenzeit für das Training von neuronalen Netzen bei großen Datenvolumen
    • Unternehmen verfügen typischerweise über ausreichende Rechenleistung für effizientes Training
  • Bedeutung der herkömmlichen Methoden
    • Betonung der weiterhin aktuellen Bedeutung herkömmlicher Methoden des maschinellen Lernens
    • Wichtigkeit auch im Hinblick auf große Datensätze und Ressourcenanforderungen für neuronale Netze

Ansatz der Inhaltsbasierten Empfehlungssysteme

Profilerstellung

  • Objektprofile
    • Enthalten charakteristische Eigenschaften
  • Userprofile
    • Enthalten Nutzereingaben

Profilabgleich

KW-50_6_3 Inhaltsbasierte Empfehlungssysteme:Methoden

Verwendung des Vektorraummodells

  • Büchern Eigenschaften
  • Textdokumente:Tokenisierung,Stemming,Entfernung von Stoppwörtern
  • Präsentation von Textdokumenten
    • Vektorraummodell:TF-IDF-Gewichtungsfaktor
    • Worteinbettung:Wörter einbetten

Erstellen eines Benutzerprofils

  • Profilerstellung:Feedback zu Objekten
  • Vorhersage von Interessen:Kosinusähnlichkeit von Vektoren

Anwendung in der Praxis

  • Verständnis der Prinzipien von Empfehlungssystemen
  • Wirksamkeit in realen Szenarien:Online-Shops,Streaming-Dienste,Informationsplattformen

Methoden von Empfehlungssystemen für Informationsinhalte

  • Ein wichtiges Personalisierungstool
  • Verbesserung der Benutzererfahrung

Hybride Empfehlungssysteme

Hybride Empfehlungssysteme

  • Kombination aus inhaltsbasierten und kollaborativen Filtermethoden
  • Überwindung der Grenzen einzelner Algorithmen
  • Nutzung der Vorteile verschiedener Ansätzen

Vorteile der HEs

  • Verbesserte Genauigkeit
  • Anpassungsfähigkeit
  • Robustheit

Nachteile der HEs

  • Ressourcenintensiv
  • Komplexität
  • Mangelnde Erklärbarkeit

Beispiele für HEs

  • Amazon
  • Spotify
  • Netflix

Netflix Empfehlungssysteme

  • Ähnlichkeiten mit anderen Mitgliedern
  • Nutzerinteraktionen ( z.B angesehene Titel, Bewerbung )
  • Details zu Titeln ( Genre, Schauspieler, Erscheinungsjahr)
  • Nutzungsdauer
  • Verwendete Geäte

Kollaborative Empfehlungssysteme

Ansätze

  • Nutzbasierter Ansatz: Ähnlichkeiten zwischen Nutzern anhand der Korrelation ihrer Bewertungen berechnet werden
  • Objektbasierter Ansatz: Ähnlichkeiten zwischen Objekten anhand der Korrelation des Nutzerfeedbacks berechnet werden

Methoden

  • Speicherbasierte Methoden
    • Die Aehnlichkeit zwischen Nutzern oder Objekten berechnen
    • Gesamte Nutzer-Objekte Matrix unter Verwendung der Cosinusähnlichkeit nutzen:
  • Modellbasierte Methoden
      • Ein statistisches Modell generieren, mittels Methoden des maschinellen Lernens.
    • Typische Methoden
      • Clustering: Gruppierung der Daten in verschiedene Cluster nach „Ähnlichkeit“
      • Klassifizierung: Ein Modell mittels eines Datensatzes trainiert wird. Hier wird der Bayes’scher Klassifikator verwendet

# KW 51, Thema: {term}`Hammesfahr & Spott 2021`

http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Hammesfahr-Spott-2021

Hammesfahr, J., Spott, M. (2021). Identifikation relevanter Zusammenhänge in Daten mit maschinellem Lernen. In: Barton, T., Müller, C. (eds) Data Science anwenden. Angewandte Wirtschaftsinformatik. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33813-8_12

Identifikation relevanter Zusammenhänge in Daten mit maschinellem Lernen (kW51)

Einleitung:

  • Bsp.: Bereich der Telekommunikation
  • Ziel: Reduzierung des Aufwandes ohne Kunden zu verärgern
  • Nutzung von Daten
    • Ansätze für Fehlerreduktion
  • Identifikation von Zusammenhängen durch:
    • Subgroup Discovery
    • Lernverfahren für Assoziationsregeln
    • Problem: zu große Anzahl an Zusammenhängen
  • ZIEL: Reduzierung von Zusammenhängen auf handhabbare Größe, ohne interessante Zusammenhänge zu verlieren

Fachliche Problemstellung:

  • Datenbasis
    • fachliche Domäne eines Fahrzeugherstellers
    • anonymesierte, reale, betriebliche Daten
    • keine Veränderung der statistischen Struktur der Zusammenhänge

Ansätze zur Reduzierung von Regelmengen:

  • Rule Learning:
    • beschäftigt sich mit dem Thema 'von gegebener Datenbasis interessante Regeln ableiten'
  • Descriptive Rule Discovery:
    • wie individuelle interessante Muster in Daten extrahiert werden können
  • Association Rule Discovery:
    • Generierung von Assoziationsregeln in einer Datenbasis
  • Subgroup Discovery:
    • Ableitung interessanter Zusammenhänge
    • mit Bezug auf eine festgelegte Eigenschaft der Individuen einer Datenbasis

Gütebestimmung von reduzierten Regelmengen:

  • Ganzheitlichkeit
  • Komplexität
  • Interessantheit
  • Redundanzfreiheit

Kombinationssystematik:

  • mögliche Beziehungen zw. zwei Regeln
    • eine Teilmengenbeziehung
    • keine Teilmengenbeziehung, eine Schnittmenge
    • keine Schnittmenge

Ableitung von fünf Schritten:

  • Entfernung reiner Redundanz
  • Approximation ähnlicher Regeln mit einer Teilmengenbeziehung
  • Approximation ähnlicher Regeln mit einer dominanten Schnittmenge
  • Anwendung von Beschränkungen
  • Selektion einer interessanten Regelmenge

Ergebnisse:

  • Implementierung in eine Programmiersprache
  • Reduzierung der Regelmengen anhand von der Systematik
  • wenige Regeln mit wenig Redundanz selektieren
  • zwei reduzierte Regelmengen, die sich bzgl. der Evaluationsgrößen als gut bewerten lassen
  • manuelle Auswertung durch Experten leicht handhabbar
  • einzelne Regeln sind unterschiedlich
    • gezielte Betrachtung relevanter Faktoren

Zusammenfassung:

  • Ziel
    • interessante Zusammenhänge zw. Produktkonfigurationen und Produktfehlern
    • Reduzierung Anzahl der Zusammenhänge auf ein handhabbares Maß ohne Informationen zu verlieren
  • Ergebnis
    • Reduzierung der 165.720 Zusammenhänge auf 2 mögliche Regelmengen mit 81 und 24 Regeln
    • kleine Anzhal an Regeln ermöglicht die Zusammenhänge sequenziell durchzugehen
    • fachliche Bewertung durch Experten
    • ob Erkenntnisse für eine Verbesserung der Produktqualität gewonnen werden kann
  • Weg
    • Einbringung von Kontextwissen der Experten für optimale Komprimierung

Quelle:

Gütebestimmung von reduzierten Regelmengen

Allgemeines

  • Messgrößen werden zur Bewertung einer Reduktion einer Regelmenge in Bezug auf die ausgehende Zielsetzung benötigt

qualitative Eigenschaften zur Bewertung von Mustern aus der Literatur

  • zur Gruppierung von Kennzahlen im Rahmen der Subgroup Discovery
    • Komplexität
    • Generalität
    • Genauigkeit
    • Interessantheit
  • subjektive Messgrößen zur Bewertung von Interessantheit
    • Redundanz
    • Neuheit
    • Unerwartbarkeit
    • Nützlichkeit
    • Aktionsfähigkeit

aus der Literatur ermittelte qualitative Eigenschaften

  • Ganzheitlichkeit
    • reduzierte Version der Datenbasis soll keine relevanten Informationen verlieren
  • Komplexität
    • wird durch die Anzahl der Regeln bestimmt
  • Interessantheit
    • Messung erfolgt anhand durchschnittlicher Werte der jeweiligen Qualitätskennzahlen einer Regel
    • Ableitung der Tendenz einer einfachen Kennzahl erfolgt über eine Rang-Funktion, anschließend wird Durchschnitt des besten und schlechtesten Ranges gebildet
    • soll gegenseitige Bekräftigung ähnlicher Qualitätsfunktionen verhindern
  • Redundanzfreiheit
    • viele redundante Regeln enthalten als Ganzes relativ zur Regelmenge wenig neue Informationen
    • Kennzahl für Redundanz ist die durchschnittliche Abdeckung eines Datensatzes durch eine Regel (entspricht Expected Cover Count)

Fachliche Problemstellung

Datenbasis: Fahrzeughersteller

  • Urprung der Daten
    • Fiktive Fahrzeughersteller
    • Anonymisierung der Begrifflichkeiten
  • Wichtiger Erfolgsfaktor
    • Kundenzufriedenheit
  • Einflussfaktoren auf Kundenzufriedenheit
    • Qualität der produzierten Fahrzeuge
      • Messung durch FAULT_RATE
      • Verschieden FAULT_TYPE
  • Merkmale zu identifizierung der Ursachen
    • AGE
    • DEALERSHIP
    • CUSTOMER_TYPE
    • COUNTRY
    • GEO_TYPE
    • MODEL
    • USER_CUSTOMIZED
  • Aggregation der Daten
    • CAR_COUNT
    • FAULT_COUNT
    • Fehlerrate

Alternative Herangehensweise zur Identifizierung interessanter Zusammenhänge

  • Visuelle Exploration der Datenbasis
    • Exemplarische Abbildung für Fahrzeugmodelle(Bsp. Abb. 12.2)
      • Hopper
      • Quantum
      • Ultima
    • Boxplots der Fehlerraten
    • Unterschiede zwischen Modelle und Fehlertypen
    • Notwendigkeit einer übersichtlichen Zusammenfassung

Werteausprägungen der Merkmale

  • AGE
    • In Warranty
    • Out of Warranty
  • DEALERSHIP
    • Franchise
    • Re-import
    • Branch
    • Used Car Dealer
  • CUSTOMER_TYPE
    • Other
    • Private
    • Corporate
  • COUNTRY
    • Portugal
    • Germany
    • ....(Usw.)
  • GEO_TYPE
    • Suburban
    • Urban
    • Village
    • ....
  • MODEL
    • Opal(Abb. 12.1)
    • Hopper (Abb. 12.2)
  • FAULT_TYPE(Abb. 12.2)
    • Air conditioning
    • Break Fluid
    • ....

KW_51 / Kapitel 5. Kombinationssystematik

1.Entfernung reiner Redundanz

  • Ziel: Identifikation und Eliminierung von Teilmengenbeziehungen
  • Schritte:
    • Identifizierung von Teilmengenbeziehungen
    • Anwendung von Closed Non-Derivable Itemsets zur Entfernung redundanter Regeln

2. Approximation ähnlicher Regeln mit einer Teilmengenbeziehung

  • Ziel: Entfernung von Regeln mit überlappendem Informationsgehalt
  • Schritte:
    • Filterung durch Positive Improvement
    • Zusammenfassung ähnlicher Regeln durch Negative Replacement
    • Verwendung von Condensed Itemsets für die finale Zusammenfassung

3.Approximation ähnlicher Regeln mit einer dominanten Schnittmenge

  • Ziel: Reduzierung von Redundanz durch Überlappungskomprimierung
  • Schritte:
    • Anwendung von Subgroup Suppression
    • Berücksichtigung verschiedener Qualitätskennzahlen bei der Ergebniszusammenführung

4. Anwendung von Beschränkungen

  • Ziel: Filtern der verbleibenden Regelmenge
  • Schritte:
    • Festlegung von Mindestsupport und Mindestkonfidenz
    • Anpassung der Beschränkung "Minimal Improvement" unter Berücksichtigung bereits gefilterter Regeln

5. Selektion einer interessanten Regelmenge

  • Ziel: Auswahl diverser Regeln für umfassenden Einblick
  • Schritte:
    • Anwendung von verschiedenen Selektionsstrategien
    • Auswahl von Regeln, die vielfältige Einblicke bieten

kw51 Empfehlungssysteme

  • Inhaltsbasierende Empfehlungssysteme
    • 3 wesentliche Schritte:
      • Präferenzen ermitteln
      • für jedes Objekt ein Profil anlegen
      • abgleichen
    • Methoden
      • Vektor-Raum-Modell
      • Word Embedding
  • Kollaborative Empfehlungssysteme
    • 2 Ansätze
      • Nutzerbasierter Ansatz
      • Objektbasierter Ansatz
    • Methoden
      • Speicher-basiert
      • Modellbasiertes-kollaboratieves-Filtern
      • Clustering
      • Bayes'scher Klassifikation
  • demografische Empfehlungssysteme
    • nutzt vordefinierte Stereotypen
    • nutzt auch Nutzer-Objekt-Matrix
  • hybride Empfehlungssysteme
    • gleicht Nachteile des einen, mit Vorteilen das anderen Empfehlungssystem aus

# KW 2.2024: Nachzügler?

Studienprojekt Text Mining

JB 2024-01-23: unklar, wo das herkommt. Nicht Klausuerrelevant.

Thema

  • Analyse des Musterdatenkataloges mittels Text Mining
  • Jupyter Notebook - Python
  • Bestimmung der Ähnlichkeit der einzelenen Einträge zueinander
  • Taggen von Orten und Zeiten

Ziel

  • Ziel 1: Möglichkeit, nach ähnlichen Einträgen zu suchen
  • Ziel 2: Möglichkeit, nach bestimmten Zeitpunkten (Daten, Jahren) und Städten/Orten zu suchen

Umsetzung

  • Säubern des Kataloges
  • Taggen der Orte und Zeiten u.a. mittels Regex
  • Erneutes Säubern
  • Abbildung der Wörter auf 3-Gramme
  • Erstellung eines Bag-of-Words für den Gesamtkatalog
  • Erstellung eines Bag-of-Words für jeden einzelnen Eintrag
  • Bestimmung der Cosinus-Ähnlichkeit über alle Einträge
  • Erstellung einer Suchfunktion für getagte Wörter und ähnliche Einträge

Herausforderungen

    • Fehlerfreie Säuberung
    • Relativ große Datenmenge, um sie auf einem normalen Laptop zu analysieren
    • Entsprechend schnelle und effizient programmierte Algorithmen notwendig

Weitere Themen

Markdown

Schau'n mer mal, dann sehn mer scho