dsci-mindmap-ws2023
Dateinamen-Konvention hier: Dateinamen ist mit einem Unterstrich "_" als Trennzeichen zusammengesetzt aus kw42 Zitierkürzel in der Online-Fassung Kapitel-Nummerierung account Datum Beispiel: kw42_1.1_s-jbusse_2024-01-08
# KW 42, Thema: {term}`Barton & Müller 2021b`
http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Barton-Muller-2021b
Barton, T., Müller, C. (2021). Data Science: Vom Begriff zur Anwendung. In: Barton, T., Müller, C. (eds) Data Science anwenden. Angewandte Wirtschaftsinformatik. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33813-8_1
kw42_1.1 Was ist Data Science?
kw42_1.2 Was ist und was macht ein Data Scientist?
- Tab. 1.1 Themenbereiche für Qualifikationen von Data Scientists
-
Spezialisierungen:
- Data-Business-Person: Eine Person mit Fokus auf Qualifikationen für Business
- Data Creative: Eine Person, bei der die Qualifikationen ungefähr gleichmäßig auf die fünf Themenbereiche verteilt ist
- Data Developer: Eine Person mit Fokus auf Qualifikationen für Programmierung
- Data Researcher: Eine Person mit vertieften Qualifikationen für Statistik
- Gute Data Scientists sollen
- über technische Expertise verfügen
- neugierig sein
- Problem in Hypothesen aufschlüsseln
- Storytelling betreiben
- Probleme kreativ und und auf unterschiedliche Weise anzugehen
KW 42_1.3 Einführung in Data Science:
- hier nicht wichtig
kw42_1.4 Systeme, Werkzeuge und Methoden
- hier nicht wichtig
Data-Science Anwendungsbereiche
Integration erneuerbarer Energien
- Energiewende mit dem Ausstieg aus der Kernenergie und damit verbundenen Herausforderungen
Machine Learning für die Energiemanagementoptimierung
- Optimierung einer Klimatisierungsanlage mithilfe von Data Science
Text Mining bei einer wissenschaftlichen Literaturauswertung
- Extraktion von Schlüsselwörtern zur Beschreibung von Inhalten
Identifikation relevanter Zusammenhänge in Daten mit maschinellem Lernen
- Zusammenhang zwischen Konfigurationen von Produkten/Infrastruktur und Fehlern
Data Science Was ist das ?
Dt. Datenwissenschaften
Das Filtern von Daten, um bestimmte Prozesse zu optimieren oder automatisieren
- - Datenanalyse ab den 1960er Jahren
- - Verbreitung in Unternehmen in den 1990er Jahren
- - Zunehmendes Datenvolumen durch Digitalisierung
Der Bereich der Datenwissenschaft befasst sich mit:
- - Der Analyse von (großen) Datenmengen - Der Identifizierung von Anomalien in den
Daten - Der Vorhersage von zukünftigen Ereignissen
- - Der Analyse von (großen) Datenmengen
- - Der Identifizierung von Anomalien in den Daten
- - Der Vorhersage von zukünftigen Ereignissen
Statistik + Informatik = Data Science
Kernbereiche von Data Science
- Data Engineering
- Data Analytics
- Data Prediction
- Maschinelles Lernen
Die neue Definition von Data Science
- basierend auf einen interdisziplinären Ansatz aus dem Jahr 2017 Data Science = (Statistik + angewandte Informatik + Computing + Kommunikation + Soziologie + Management | (Daten + Umgebung + Denkweise))
Ethik und Data Science
- Die Beurteilung sozialer Aspekte basiert auf moralische Prinzipien
Quellen
- Barton, Tomas & Müller, Christian: Data Science anwenden, 1, Springer Verlag, 3-4. https://mindsquare.de/knowhow/data-science/#einsatzzweck https://datasolut.com/was-ist-data-science/
Was ist und was mach ein Data Scientist
Spezialisierungen
- Data-Buisness-Person
- Eine Person mit Fokus auf Qualifikation für Buisness
- Data Creative
- Eine Person, bei der die Qualifikationen ungefähr gleichmäßig auf die fünf Themenbereiche verteilt ist
- Data Developer
- Eine Person mit Fokus auf Qualifikationen für Programmierung
- Data Researcher
- Eine Perosn mit vertieften Qualifikationen für Statistik
Was sollten gute Data Scientists können?
- über technische Expertise verfügen, die beispielsweise über ein naturwissenschaftliches Studium nachgewiesen werden kann
- neugierig sein mit einem Verlangen, zu entdecken und in die Tiefe zu gehen, um ein Problem in Hypothesen aufzuschlüsseln, die getestet werden können
- Storytelling betreiben, indem sie Daten dazu verwenden, um eine Geschichte zu erzählen und diese effektiv zu kommunizieren
Welche Qualifikationen sind dafür benötigt?
- Business/Produktentwicktlung
- - Buisness
- - Produktentwicklung
- Machine Learning/Big Data
- - Big Data und verteilte Daten
- - Machine Learning
- - Strukturierte Daten
- - Unstrukturierte Daten
- Mathematik/Operation Research
- - Algorithmen
- - Bayes'sche Statistik und Monte-Carlo-Methoden
- - Grafische Modelle
- - Mathematik
- - Optimierung
- - Simulation
- Programmierung/Systemadministration
- - Back-End-Programmierung
- - Front-End-Programmierung
- - Systemadministration
- Statistik und Visualisierung
- - Statistik
- - Umfragen und Marketing
- - Visualisierung
Data Science: Vom Begriff zur Anwendung
1.3 Einführung in Data Science
- Einführung in Data Science in Kapitel 2
- Ethische Betrachtungen sind eine immer größere Rolle in der digitalen Transformation von Unternehmen
- digitale Transformation führt zur Implementierung technologischer Lösungen zur Unterstützung der Entscheidungsfindung
- Untersuchungen zum Scheitern von Data-Science-Projekten in Kapitel 5
1.4 Systeme, Werkzeuge und Methoden
- "Empfehlungssysteme und der Einsatz maschineller Lernverfahren" von A. Peuker und
T. Barton
- Grundlagen und Einsatz von Empfehlungssysteme
- vergleich BI-Systeme und die Funktionalität aus dem Bereich machine Learning für Fachanwendungen
1.1 Was ist Data Science?
- Schnittmenge dreier Mengen, jede eine Kompetenz von Data Scientists
- Hacking-Fähigkeiten
- mathematische, statische Kompetenzen
- substanzielle Kompetenzen
- vier Kernbereiche für die acatech
- Data Engineering
- Data Analytics
- Data Prediction
- maschinelles Lernen
- neuere Definition basierend auf interdisziplinärem Ansatz
- Data Science=(Statistik+angewandte Informatik+Computing+Kommunikation+Soziologie+Management | (Daten+Umgebung+Denkweise)
- Data Science stützt sich auf
- angewandte Informatik
- Computing
- Kommunikation
- Management
- Soziologie (soziale Aspekte)
- Moral
- Beurteilung von sozialen Aspekten
- Gesamtheit feststellbarer Verhaltensweisen, Verhaltensnormen und verhaltensbezogener Eistellungen und Werturteile
- Gegenstand der Ethik
1.2 Was ist und was macht ein Data Scientist?
- Attraktivster Job des 21. Jahrhunderts
- 2015 Chief Data Scientist ernannt
- Was macht er und welche Qualifikationen braucht er?
- Business und Produktentwicklung
- Machine Learning/Big Data
- Big Data und verteilte Algorithmen
- Machine Learning
- Strukturierte Daten
- Unstrukturierte Daten
- Mathematik/operation Research
- Algorithmen
- Bayes'sche Statistik/Monte-Carlo-Methoden
- Grafische Modelle
- Mathematik
- Optimierung
- Simulation
- Programmierung/Systemadministration
- Back-End-Programmierung
- Front-End-Programmierung
- Systemadministration
- Satistik/Visualisierung
- Statistik
- Umfragen und Marketing
- Visualisierung
- folgende Spezialisierungen:
- Data-Business-Person: Fokus Business
- Data Creative: Fokus gleichmäßig aufgeteilt
- Data Developer: Fokus Programmierung
- Data Researcher: vertieft auf Statistik
1.5 Anwendungen
- erneuerbare Energien (Kap. 9)
- Optimierung des Energiemanagements (Kap. 10)
- wissenschaftliche Literaturauswertungen (Kap. 11)
- zusammenhänge in Daten mit maschinellem Lernen identifizieren (Kap. 12)
- Kundenzufriedenheit in der Automobilindustrie und Fahrerassystenzsystementwicklung (Kap. 13)
# KW 43, Thema: {term}`Zweig 2018`
http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Zweig-2018
Katharina A. Zweig: Wo Maschinen irren können. Verantwortlichkeiten und Fehlerquellen in Prozessen algorithmischer Entscheidungsfindung. Bertelsmann Stiftung (Hrsg.), 05.02.2018, DOI: 10.11586/2018006, https://www.bertelsmann-stiftung.de/de/publikationen/publikation/did/wo-maschinen-irren-koennen > Download (pdf)
Zweig-2018-Abb-4
Abbildung 4 aus Zweig 2018, S. 21, als Mindmap ... hier ein Versuch, die Abb. als KnowledgeGraph in einer Mindmap darzustellen
Phase 1: Algorithmendesign und Implementierung
- REL_hatFehler
- handwerkliche Fehler
- Je mehr Anwender es gibt, desto wahrscheinlicher ist es, dass ein Fehler entdeckt wird
- Um Fehler erkennen zu können, ist es vor allen Dingen wichtig zu wissen, wie der Algorithmus in welchem Fall reagieren sollte – die Problemspezifikation muss also bekannt sein.
- Je mehr Personen Zugang zum Code haben, desto wahrscheinlicher ist es, dass einem von ihnen ein Fehler auffällt.
- handwerkliche Fehler
- REL_hatAkteur
- Wissenschaftler/Informatiker
Phase 2: Methodenauswahl
- BT
- Operationalisierung
- REL_hatFehler
- b Fehlende Passung von Operationalisierung und Daten
- i Unpassende Daten für Fragestellung
- e Mangelnde Datenqualität
- REL_hatFehler
- Datensammlung
- REL_hatAkteur
- Datensammler (staatlich, wirtschaftlich, wissenschaftlich, NGOs)
- REL_hatAkteur
- Datenauswahl
- REL_hatAkteur
- Data Scientist
- REL_hatAkteur
- Operationalisierung
- REL_hatFehler
- unpassende Methode
Phase 3: Konstruktion des Entscheidungssystems
- REL_hatFehler
- j Unpassende Kombination von implementiertem Algorithmus und Daten
- k Zu wenige Datenpunkte für Musteridentifikation
- f Qualitätsmaß unpassend für Problemstellung
Phase 4: Einbetten in den gesellschaftlichen Kontext
- REL_hatFehler
- c Fehlinterpretationen
- a Fehlende Erklärbarkeit
- h Unintendierte Nebenwirkungen durch Interaktion von System und Mensch
Phase 5: Re-Evaluierung des Entscheidungssystems
- REL_hatFehler
- g Selbstverstärkende Feedbackschleifen
Phase 2-5
- REL_hatAkteur
- Data Scientist
Phasen 3-5
- REL_hatAkteur
- Entscheider (staatlich, wirtschaftlich, wissenschaftlich, NGOs)
Frick-DataGovernance
Messen und Beobachten
- Wie?
- Kontinuierlich / Regelmäßig
- Durch Zielsetzung + Aktueller Stand
- Wraum?
- Verbesserung
- Weiterentwicklung
- Abweichungserkennung
- Problemerkennung
- Strategiereflexion
Technologie
- Was muss betrachtet werden?
- Datenschutz
- Datensicherheit
- Datenqualitätsmanagement
- Wie gelingt die Umsetzung?
- Bereitstellung geeigneter Werkzeuge
- Schulungen für Mitarbeiter
- Übersicht der Daten
- Management der Metadaten
- Bedeutung der Informationsobjekte
- Prozessinformationen bzgl. Veränderung, Verknüprung, Zuordnung
- Strukturangaben bzgl. Datentyp, Wertebereich, Qualität
- Administrative Informationen über Erstellungszeitpunkt, Zugriffhäufigkeit, Berechtigung
- Richtiges Data-Management
- Warum?
- Zentrale Datenspeicherung für entwickler
- Klassifizierung u. Anreicherung der Daten
- DataLake erstellung durch unstrukturierte Daten
- Data Lineage (Herkunft)
- Aus aggregierten Datensätzen die Ursprünglichen Datensätze bestimmen
- Data Catalog
- Beschreibung der gespeicherten Daten
- Warum?
Kommunikation
- Wie?
- Strukturierter Informationsaustausch
- Frühzeitige Informationsweitergabe
- Zielgruppenorientiert
- Einhaltung von Richtlienien und Regeln
- Umsetzung
- Kommunikationsplan
- Wer benötigt Informationen
- Wer ist verantwortlich
- Trainingsplan
- Schulungsplan für involvierte Gruppen/Personen
- Kommunikationsplan
DataQuality Management
- Definition
- Themenbereich der sich mit dem Arbeiten, mit qualitativ hochwertigen Daten befasst.
- Warum?
- Daten haben wirtschaftliches Potenzial
- Daten sind oft fehlerhaft, widersprüchlich, unvollständig oder veraltet
- Wie?
- Validierung
- Standardisierung
- Bereinigung
- Anreicherung
Data-Science / Wo Fehler passieren können
Wichtig:
- Fehler der Phase 4 (Einbettung in den gesellschaftlichen Kontext)
-
- Fehlinterpretationen, keine Erklärbarkeit, ausnutzen des Algorithmus
- Fehler der Phase 1 (Algorithmendesign und Implementierung)
-
-
- Handwerkliche Fehler Treten im Design und der Implementierung auf
-
- Fehler der Phase 2 (Methodenauswahl)
-
- Operationalisierungsfehler Datenerhebung Qualität der Daten Veraltete Daten Methodenauswahl
- Fehler der Phase 3 (Konstruktion des Entscheidungssystems)
-
- Auswahl eines Qualitätsmaßes: Sensitivität, Spezifizität, Akkuratheit
- Fehler der Phase 5 (Re-Evaluation des Entscheidungssystems)
-
- System verstärkt -> mehr Feedback -> System verstärkt Selbstverstärkende Feedbackschleife
Katharina Zweig (2018) "Wo Maschinen irren können"
Gefahren bei Entscheidungssystemen? Weapons of "Math Destruction"?
- Intransparenz
- Skalierbarkeit
- Schadenspotential
Lösungsvorschläge
- Algorithmen-TÜV
- Data Science Berufsethik
- Beipackzettel für Algorithmen
- Validierung und externe Beforschbarkeit
Fazit
- Komplexität und Fehleranfälligkeit
- Encoding Values?
# KW 44, Thema: {term}`Frick 2021b`
http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Frick-2021b
Frick, D. (2021). Data Governance. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33403-1_6
Was ist Data Governance?
Assets
Roles, Tasks & Responsibilities
Processes
Architecture & Tools
Security
Compliance
6.1.2 Datenstrategie
Perspektiven
Treiber für Data Governance
6.2 Data Governance Framework
6.2.1 Strategie
6.2.2 Aufbauorganisation
- Rollen im Data Governance
6.2.3 Richtlinien, Prozesse und Standards
- Wirkung auf die verschiedenen beteiligten Elemente (Systeme, Menschen, Prozesse, Daten)
6.2.4 Messen und Beobachten
6.2.5 Technologie
-
Erklären Sie:
- Metadaten
- Data-Lineage, Data Provenance
- ETL
- Taxonomie
- Data Catalog
- Data Lake
6.3 Data Quality Management (DQM)
Prozessbereiche
Data-Profiling-Analyse
Data-Governance-KW44
Definition
- Rahmenwerk für Umgang mit Daten im Unternehmen
Inhalt
- Richtlinien
- für Schutz
- für Sicherheit
- für Qualität
- Einhaltung der rechtlichen Vorgaben
Dimensionen
- Assets
- Definition von Daten
- Roles, Tasks, Responsibilities
- Festlegung der Rollen
- Data Owner
- Senior-Manager mit Wissen über Datensemantik
- Data Steward
- Mitarbeiter aus Fachgebiet Daten und IT
- Data Custodian
- Spezialisiert auf Vermeidung von Datenverlust/-verfälschungen
- Data Owner
- Festlegung der Rollen
- Processes
- Überwachung der internen Prozesse und Übertragungen
- Architecture
- setzt Standards für technische Umsetzung
- Security
- Standards von Datensicherung
- Zugriffsrechte
- bestimmen Vorgehensweise bei Sicherheitsverstößen
- Compliance
- Einhaltung des Datenschutzes
Perspektiven
- System
- Regeln für Datenarchitektur
- technische Komponente
- Prozess
- Datenmanagement
- Datenerhebung
- Datenveräußerung
- Datenlöschung
- Datenmanagement
- Strategie
- Fokus auf Optimierung
- Fokus auf Entwicklung neuer datengetriebener Geschäftsmodelle
Werte
- Datennutzer
- Flexibilität
- Agilität
- zeitnah
- selbstständig Daten durchforsten
- Datenanbieter
- Konsistenz
- Transparenz
- Verfügbarkeit
Bestandteile
- Vision
- schwammig, ungefähres Ziel
- Mission
- Rolle im Unternehmen
- Regeln entwickeln
- Ziel
- Klare, messbare Vision
- übergeordnetes Ziel
- Maximierung des geschäftlichen Nutzens
- Übereinstimmung mit Unternehmenszielen
Häufige Prozesse
- Aligning Policies, Requirements and Controls
- Establishing Decision Rights
- Establishing Accountability
- Performing Stewardship
- Managing Change
- Defining Data
- Resolving Issues
- Specifying Data Quality Requirements
- Providing Stakeholder Care
- Communications and Program Reporting
- Measuring and Reporting Value
Schritte zur Einführung
- Ermittlung des Status Quo im Datenmanagement
- Ziele definieren
- Ursprüngliches Konzept + Roadmap
- Zustimmung von Stakeholder & Sponsor
- Konzept ausarbeiten und transformieren
- Roadmap umsetzen
- Ausweitung in andere Bereiche
- Stabilisieren und Verbessern
# NEU 2024-01-16: Jens Kaufmann, Kap. 11: Fundamentale Analyse- und Visualisierungstechniken
jeweils ganz kurz erklären können
- Boxplot
- 11.2 Lineare Regression
- 11.3.1 k-Nearest-Neighbors
- 11.3.2 Naive Bayes
- 11.3.3 Entscheidungsbäume
- 11.3.3 Entscheidungsbäume
- 11.4 Clustering-Verfahren
- 11.4.1 Hierarchische Verfahren
- Dendrogramm
- 11.4.2 Partitionierende Verfahren
- k-means
- 11.4.1 Hierarchische Verfahren
- 11.5 Assoziationsanalyse
# KW 45, Thema: {term}`Kaufmann 2021`
http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Kaufmann-2021
Kaufmann, J. (2021). Fortgeschrittene Verfahren zur Analyse und Datenexploration, Advanced Analytics und Text Mining. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33403-1_12
jeweils kurz erklären und einordnen könnnen
- Recherchiere: Unterschied überwachtes Lernen / unüberwachtes Lernen?
- 12.2 Datenexploration und -darstellung
- 12.3 Principal Component Analysis
- 12.4 Random Forests
- 12.5 Logistische Regression
- Unterschied Regression und Logistische Regression?
- 12.6 Entscheidungsbewertung
- Konfusionsmatrix
- 12.7 Zeitreihenanalyse
- 12.8 Text Mining
- Bag of Words
- Term Frequency – Inverse Document Frequency (TFIDF)
- Kosinus-Ähnlichkeit
KW45_Vortrag-dsci-kaufmann_2023_11_06
(JBusse: habe hier die Formeln entfernt, nicht relevant für die Klausur)
1. Principal Component Analysis
- * Reduzierung komplexer Datenbestände
- * Kombination von Variablen
- * Erzeugung künstlicher neuer Variablen
2. Random Forest
- * Besteht aus mehreren Entscheidungsbäumen
- * Verbessert Klassifikationsgüte
3. Logische Regression
- * Ermöglicht Schätzung von Wahscheinlichkeiten
- * Basiert auf Umrechnung von Wahrscheinlichkeiten zu Chancen
- * Verwendet S-förmige Sigmoidfunktion
4. Entscheidungsbewertung
- * Erfolgt durch Analyse von Konfusionsmatrizen
- * Vergleich von vorhersagen und tatsächlichen Werten
5. Zeitreihenanalyse
- * Ermöglicht untersuchung von zeitlichen Entwicklungen
- * Schätzung zukünftiger Werte
6. Text Mining
- * Analyse natürlichsprachlicher Texte
- * Ähnlichkeit zwischen texten durch Kosinus-Ähnlichkeit
# KW 45, Fortgeschrittene Verfahren zur Analyse und Datenexploration, Advanced Analytics und Text Mining.: {term}`Kaufmann 2021`
Hauptgruppen des Data Mining
- Klassifikation (Objekte zuordnen zu Klassen)
- Segmentierung/Clustering (Objekten in Gruppen einteilen)
- Prognose (auf Basis bekannter Werte)
- Assoziationsanalyse (Zusammenhang einzelner Elemente erkennen)
Datenexploration und -darstellung
- zielführende graphische Darstellung der Daten
- Für Menschen ist dies angenehmer zu analysieren als Tabellen mit numerischen Werten
- betrachte große Datenmengen explorativ, aber nicht planlos
- Erkennung von Mustern auf höherer Ebene mithilfe zusammenfassender Darstellungen
- Können damit Hypothesen erstellen und passende Analyseverfahren der Daten auswählen
Logistische Regression
- Die Zuordnung eines Datenpunktes zu einer Klasse wird ein Wahrscheinlichkeitswert gegeben
- Zieht eine Entscheidungsgrenze (Linie) durch Datenpunkte
- Entfernung von Entscheidungsgrenze bestimmt die Wahrscheinlichkeit der korrekten Klasseneinordnung
- Klassen einordnen auf beiden Seiten der Entscheidungsgrenze
Random Forest
- entsteht aus mehreren Entscheidungsbäumen zusammengefügt
- Training Set (für eigentlichen Modell-Erstellung)
- Validation Set (zur Verbesserung des Modells)
- Test Set (zur Qualitätermittlung)
- hat höhere Qualität als einzelne Entscheidungsbäume
Zeitreihenanalyse
- beschreibt kausaler Zusammenhänge zwischen Zeitreihen
- aus Längsschnittdaten der Variablen über einen Zeitraum
- zerlege Längsschnittdaten in einzelne Komponenten
- Trendkomponente, beschreibt langfristige Entwicklungen
- saisonale Komponente, beschreibt wiederkehrende Muster
- Zufallskomponente, ist Restgröße der Datenveränderung
- Angabe Konfidenzintervalle, da mit zeitlicher Entfernung zum letzten Datensatz die Genauigkeit abnimmt
- Visualisierung mithilfe Punkt-, Linien- oder Säulendiagramme
- ist eine Prognose zukünftiger Werte
Text Mining
-
bag-of-words-Ansatz zum Strukturieren eines Texts
- Für jedes analysierte Dokument hat die Tabelle eine Zeile
- jedes Wort hat eine Spalte
- In jeder Spalte wird die Häufigkeit des Worts notiert
- diverse Fehlerquellen, welche Analyse erschweren, müssen entfernt werden
- Ähnlichkeit von Dokumenten durch Kosinus des Winkels der entsprechenden Vektoren beschreiben
Entscheidungsbewertung
- prüft die Qualität von Modellen
- Confusion Matrix
- False Positive Fraction, also Fehleinschätzungen
- True Positive Fraction, also korrekte Einschätzungen
- die Receiver- Operating-Characteristics-Kurve (ROC-Kurve) stellt Fractions in Abhängigkeit
zu Schwellwert dar
- je weiter ROC-Kurve von Diagonalen entfernt, desto präziser das Modell
- größere Fläche unter ROC-Kurve bedeutet besseres Modell
- Confusion Matrix
Hauptkomponentenanalyse
- auch „Principal Component Analysis“ (PCA) genannt
- ermöglicht vielen Variablen in Graphen nachvollziehbarer darstellen
- kombiniere bestehende Variablen zu einer neuen Variable
- hat gleiche Eigenschaften in geringerer Dimension
- ermöglicht Graphik-darzustellung im 3-dimensionalen-Raum von neuen Variablen und ihren Gruppen
Einleitung in Thema
- Fragen für Datenanalyseverfahren
- welche Daten stehen zur Verfügung vor?
- welche Fragestellung sollen beantwortet werden?
- welche Methode der Datenanalyse Verfahren sind sinnvoll?
- Vorgehensweise in Datenanalyseverfahren
- 4 Hauptgruppen des Data-Mining
- erster Ansatz Datenexploration und -darstellung
- zweiter Schritt Hauptkomponentenanalyse
-
- danach weitere Datenanalyseverfahren
# KW 46, Thema: {term}`Maierhofer 2021`
http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Maierhofer-2021
Maierhofer, C.R. (2021). Information Data Models: Das Fundament einer guten Information Strategy. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33403-1_9
- Was ist eine native Data Science Strategie?
- 9.1 Drei Thesen aus Sicht eines Praktikers
- Chaos
- Hierarchien
- selbstbeschützend
- growth midset, fixed mindset
- Knechtschaft der Applikationen / autonome Existenz von Daten
- 9.3 Das Heute und seine Hürden
- 9.4 Wie es dazu gekommen ist
- 9.5 Die Enterprise Architektur
- 9.6 Drei Formen der Informations-Architektur und deren Auswirkungen
- 9.6.1 Das Gestern und leider noch das Heute. Der anwendungszentrierte Ansatz (The Application Centric Approach)
- 9.6.2 Das Heute und die Morgendämmerung, der datengesteuerte Ansatz (The Data Driven Approach)
- 9.6.3 Das überfällige Übermorgen, die datenzentrische Architektur (The Data Centric
Architecture)
- Data-Centric Manifesto
- Abb. 9.4 Data Centric Architecture
Information Data Models - Herausforderungen und Lösungen
Das Heute und seine Hürden
- - Aktuelle Probleme: Diskrepanz zwischen Selbstwahrnehmung und Realität in Unternehmens-Informationssystemen. - Interne Herausforderungen: Schwierigkeiten bei Leistungsverrechnung und Mangel an aussagekräftigen Performance Indicators.
- - Abteilungsübergreifende Probleme: Komplikationen bei der Erfassung und Verarbeitung von Informationen zwischen verschiedenen Bereichen.
- - Analyse: Notwendigkeit von mehr Transparenz und Flexibilität in den bestehenden Systemen.
Die Enterprise Architektur
- - Moderne Ansätze: Notwendigkeit der Anpassung an das aktuelle Geschäftsmodell und datenzentrische Architekturen.
- - Vorteile: Erhöhte Agilität und Anpassungsfähigkeit, effizientere Ressourcennutzung durch zentralisierte Datenstrukturen.
Abschluss und Fazit
- - Zusammenfassung: Wichtigkeit der Modernisierung der Informationsarchitektur in Unternehmen.
- - Ausblick: Bedeutung effektiver Data Science Strategien für den zukünftigen Erfolg von Unternehmen.
Wie es dazu gekommen ist
- - Historischer Kontext: Entwicklung der IT-Abteilungen von Basisservice-Anbietern zu strategischen Partnern.
- - Folgen: Budgets und Kontrolle verschoben sich in Richtung Fachbereiche, Applikationszentrierte Architekturen entstanden
Information Data Models
Informationen
-
Drei Thesen aus Sicht eines Praktikers
- Allgemein
- Chaotische Informations-Architektur
- Anerkennung des Problems
- Willen zur Veränderung
- Hirarchie der Organisationsstruktur
- Beschränkung
- Weiterentwicklung
- automatische Verarbeitungsmöglichkeiten
- Beschränkung
- Chaotische Informations-Architektur
- Bedeutung des Mindset
- Growth Mindset
- Wille zur Veränderung
- Bringt Fortschritt
- Fixed Mindset
- Birgen in Bequemlichkeit
- Fördert konservative Struktur
- Growth Mindset
- Native Data Science Strategie
- Fundamentale Veränderung
- Autonome Datenverarbeitung
- Autonome Existenz von Daten
- Allgemein
-
Informationen als entscheidender Wirtschaftsfaktor
- KI als Paradebeispiel
- Datensammlung im autonomen Fahren
- Datensammlung in LMMS
- Unternehmen sollten Daten höchste Priorität einräumen
- KI als Paradebeispiel
# KW 47, Thema: {term}`Schmitz 2021`
http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Schmitz-2021
Schmitz, U. (2021). Big Data. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33403-1_1
- 1.1 Grundlagen
- Die 5 V
- 1.2 Architektur und Bausteine
- Abb 1.1 Klassifizierung von Big Data-Technologien
- AUFGABE: Klassifizierung rekonstruieren
- Abb 1.1 Klassifizierung von Big Data-Technologien
- 1.3 Datengetriebene Geschäftsmodelle
- 1.4 Exemplarische Einsatzmöglichkeiten
Big Data
Architektur und Bausteine
- Baustein: Data Governance
- Internationale rechtliche Rahmenbedingungen
- EU-Datenschutzgrundverordnung
- Internationale Unterschiede
- EU vs US
- Notwendigkeit Internationaler Standards
- Berücksichtigung der Interessen einer Person
- Deutsches Bundesdatenschutzgesetz
- Wichtigkeit und Bedeutung personenbezogener Daten
- Anonymisierung und Pseudonymisierung
- Anonymisierung
- Pseudonymisierung
- AOL Skandal
- Internationale rechtliche Rahmenbedingungen
- Baustein: Datenkonnektivität
- ETL-Prozess
Datengetriebene Geschäftsmodelle
- Optimierung
- Konzept: Bessere Auswertung existierender Datenbestände
- Beispiele: Konvertierung alter Datenpools in neue Formate, etc.
- Monetarisierung
- Konzept: Schaffen neuer Produkte mit bestehenden Daten
- Beispiele: Analyse-Dienste basierend auf Suchverhalten, etc.
- Leverage
- Konzept: Bestehende Geschäftsmodelle durch Daten verbessern
- Beispiele: Intelligente Mautsysteme, etc.
- Disrupt
- Konzept: Produkte durch Sammeln neuer Datenbestände
- Beispiele: Facebook, etc
Big Data-Geschäftsmodelle
- Analytics-as-a-Service
- Konzept: Bereitstellung von Analysen und Prognosen
- Beispiele: Wetter, Social Media, etc.
- Data-as-a-Service
- Konzept: Sammeln, Aggregieren von Daten
- Beispiele: Online-Werbung, Cookies, etc.
- Data-infused Products
- Konzept: Aufwertung bestehender Produkte durch Daten
- Beispiele: Intelligente Stromzähler, etc.
- Datenmarktplätze und Daten-Aggregatoren
- Konzept: Plattformen für Verkauf und Nutzung von Daten
- Beispiele: Marktforschungs- und Beratungsunternehmen, etc.
1.4 Exemplarische Einsatzmöglichkeiten
Social Media
- Web 2.0
- Mitgestaltung von Inhalten durch Nutzer in sozialen Netzwerken, Blogs usw..
- Nutzung für Marketing und PR, interne Kommunikation im Unternehmen. z.B. über Twitter, Facebook oder interne Wikis.
- Entwicklung von Strategien zur Positionierung von Unternehmen auf Plattformen. Hauptsächliche
Inhalte davon sind:
- Bekanntmachung von Inhalten
- Kontakt zu Nutzern
- Proaktiver Ansatz
- Setzt auf direkte Kommunikation (zB. Facebook, Blogs).
- Kunden können aktiv in Marketingaktivitäten wie Produktgestaltung durch Crowdsourcing einbezogen werde.
- Dieser Ansatz zielt auf langfristige Kundenbeziehungen und verspricht größeren Erfolg im Vergleich zum reaktiven Ansatz.
- Reaktiver Ansatz
- Grundsätzlich abwartende Haltung.
- Überwachung von Social Web nach Feedback zum Unternehmen.
- Unternehmen reagiert gezielt auf Kritik, entgegenwirken und aufklären.
- Hauptsächlich um Nutzverhalten zu beobachten und Feedbacks zu überwachen.
- Zudem werden Social Media Guidelines erstellt, um Mitarbeitern klare Richtlinien für ihr Verhalten im Social Web zu geben, einschließlich Kommunikation mit Dritten, Datenschutz und Urheberrecht.
Marketing und Vertrieb
- Unternehmensbeispiel Telefonica
- Telefónica, ein spanischer Telekommunikationskonzern führte Smart Steps ein:
- sammelt ortsbezogene Daten von Nutzern
- anonymisiert die Daten
- verkauft an Dritte
- Nutzung: Besucherzahlen zu bestimmten Zeiten um Personal zu optimieren. Mobiltelefonhersteller verbesserte dadurch Empfangsleistung.
- Telefónica, ein spanischer Telekommunikationskonzern führte Smart Steps ein:
Forschung und Entwicklung
- Unternehmensbeispiel UPS
- Entwickelten Strategie zur Überwachung von Lieferungen, Routenoptimierung und Kostenreduzierung.
- Sensorsystem in jedem Fahrzeug:
- Geschwindigkeit
- Richtung
- Benzinverbrauch
- weitere technische Parameter
- kombiniert mit GPS-Daten ermöglicht dies:
- Analyse von Fahrverhalten
- Routenoptimierung
- vorausschauende Wartung
- Folgen daraus:
- Was zu einer Einsparung von 85 Millionen Meilen Wegstrecke pro Tag geführt hat, was etwa 30 Millionen Dollar pro Tag entspricht. Kunden haben zusätzlich mehr Einsicht in ihre eigenen Lieferdaten (z.B. Lieferzeit, Standort) was zu mehr Kundenzufriedenheit führte.
Finanz- und Risikocontrolling
- Unternehmensbeispiel United Overseas Bank
- Prozess zur Bewertung des Gesamtrisikos wurde drastisch verbessert. Dabei werden über
100.000 marktrelevante Parameter analysiert.
- Früher: 18 Stunden für ca. 8,8 Milliarden Berechnungen
- Heute: wenige Minuten
- Für die Problemlösung hat die Bank eine analytische Software-Lösung sowie eine In-Memory- Technologie eingeführt.
- Diese Big Data-Technologien ermöglichen es sogar, neue marktrelevante Faktoren während der Berechnungen einzubeziehen.
- Prozess zur Bewertung des Gesamtrisikos wurde drastisch verbessert. Dabei werden über
100.000 marktrelevante Parameter analysiert.
Produktion, Service und Support
- Unternehmensbeispiel Vestas
- Analyse für potentielle Standorte von Windkraftanlagen wurde drastisch beschleunigt
und Stromerzeugungskosten pro kWh. wurden verringert. Weiterhin wurden die Ausfallzeiten
der Anlagen durch die Berücksichtigung von materialbelastenden Turbulenzen minimiert.
- Früher: mehrere Wochen
- Heute: wenige Stunden
- Die Analysen umfassen verschiedene Faktoren wie Geländehöhe, Satellitenbilder, Bewaldung, Stromnetzanbindung und historische Wetterdaten.
- Analyse für potentielle Standorte von Windkraftanlagen wurde drastisch beschleunigt
und Stromerzeugungskosten pro kWh. wurden verringert. Weiterhin wurden die Ausfallzeiten
der Anlagen durch die Berücksichtigung von materialbelastenden Turbulenzen minimiert.
KW47 Big Data: Bausteine
Datenhaltung
- Hadoop
- Open-Source Framework
- ermöglicht parallele Verarbeitung großer Datenmengen
- mittles Map-Reduce-Methode
- ermöglicht das Aufteilen großer Datenmengen in kleinere Teilmengen
- mittles Map-Reduce-Methode
- nutzt performante Computercluster
- Netz aus miteinander verbundenen Computern mit einem Access-Point
- Rechenlast für eine Aufgabe wird auf mehrere Computer verteilt
- keine festgelegte Struktur und Semantik der Dateien nötig
- Hadoop Distributed File System (=HDFS)
- bringt Hochverfügbarkeit mit sich
- auch bei Ausfall einzelner Komponenten bleiben alle Funktionen bestehen
- die Daten werden dafür in dem Cluster gespeichert
- bringt Hochverfügbarkeit mit sich
- Vorteile
- hohe und einfache Skalierbarkeit
- Open-Source Framework
- allgemeine Kosten sind niedriger als bei Software-Herstellern
Datenverarbeitung
- schnelle Verarbeitung mit In-Memory-Technologie
- Daten werden nicht mehr auf der Festplatte gespeichert sondern im Arbeitsspeicher
- ABER: im RAM speichern ist sehr aufwendig
- LÖSUNG: Temperatur-Modell
- Hot-Daten: oft verwendete Daten
- speichern im RAM
- Cold-Daten: selten verwendete Daten
- speichern auf Festplatten
- Hot-Daten: oft verwendete Daten
- Daten werden nicht mehr auf der Festplatte gespeichert sondern im Arbeitsspeicher
- Datenverarbeitungsmethoden
- Text-Mining
- Analyse von Fließtext(=unstrukturierte Datenmengen), um Muster zu erkennen
- PROBLEM: jede natürliche Sprache hat eine andere Grammatik und Semantik
- LÖSUNG: Natural Language Processing; führt die semantische Analyse des Fließtextes durch
- Verwendungszweck: Social Media Marketing
- Analyse von Fließtext(=unstrukturierte Datenmengen), um Muster zu erkennen
- Data Mining
- versch. Methoden, um Informationen aus den Daten zu erhalten
- Segmentierung: Bildung von kleinen Gruppen
- Abweichungsanalyse: Soll-Werte werden mit Ist-Werten verglichen und dementsprechend sortiert
- Klassifikation: Daten in versch. Klassen aufteilen und sortieren
- Prognose: Vorhersage auf bereits gewonnen Daten treffen
- Assoziationsanalyse: Suche nach anwendbaren Regeln
- Sequenzanalyse: Suche nach Relationen untereinander
- versch. Methoden, um Informationen aus den Daten zu erhalten
- Text-Mining
Datenvisualisierung
- mit der Big-Data Ära brauchte man neue Darstellungstypen, um die Daten...
- ...anschaulich zu gestalten
- ...eventuelle Messfehler zu erkennen
- Beispiele
- Donut-Cloud
- https://bibaccess.fh-landshut.de:2673/chapter/10.1007/978-3-658-33403-1_1#Fig4
- Flare-Chart
- https://bibaccess.fh-landshut.de:2673/chapter/10.1007/978-3-658-33403-1_1#Fig5
- Dashboard
- https://bibaccess.fh-landshut.de:2673/chapter/10.1007/978-3-658-33403-1_1#Fig6
- Donut-Cloud
Textquelle
- https://bibaccess.fh-landshut.de:2673/chapter/10.1007/978-3-658-33403-1_1
# KW 48, Thema: {term}`Quix 2021`
http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Quix-2021
Quix, C. (2021). Data Engineering. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33403-1_5
- 5.1 Aufgaben des Data Engineering
- CRISP-DM
- Data Wrangling
- 5.2 Architekturen zum Daten-Management
- Data-Warehouse
- ETL
- Data-Lake
- 5.3 Datenmodellierung und Metadaten-Management
- 5.4 Datenaufbereitung und Datenintegration
- Exploration & Profiling
- Harmonisierung & Bereinigung
- Identifikation der Quell-Schemata
- Abgleich der Quell-Schemata
- Schema-Matching
- Definition eines integrierten Schemas
- Mapping der Quell-Schemata auf integriertes Schema
- Daten zusammenführen
- Feature-Selektion und -Konstruktion
- 5.5 Datenbank-Management-Systeme: SQL, NoSQL und Big Data
- NoSQL
- Key-Value
- Dokument-orientiert
- Wide Column
- Graph-orientiert
- NoSQL
5.4 Datenaufbereitung und Datenintegration
Datenintegration
-
Abgleichen der Datenshemata
- Ähnlichkeiten (Wissen, Korrespondenz) mit Shema Matching Tools erfassen
- Beziehungen
- Vergleich von Zeichenketten
- mit Wörterbuch vergleichen
- Datentypen
- Ausschluss von Korrespondenzen
- Wertebreich
- Histogramme analysieren
- 2 Attribute = gleiche Werte (zB Alter)
- Struktur
- Graph- oder Baumstruktur
- Aus Ähnlichkeiten Nachbarn ableiten (Adresse = adresse)
- Referenzmodell
- Ableiten durch Lokig oder Maschinen Learning
- Deep Learning: gut für komplexes
- Shema Matching: fehlende Trainingsdaten
- verschieden Ansätze = menschen müssen aber überprüfen
- Integrierte Schemata
- Quellenorientiert
- Vereinigungsmenge der Quellshemata
- Berücksichtigung vorheriger Schritte
- Unterstützung der Werkzeuge möglich
- Anwendungsorientiert
- Ähnlich der Top-Down_Datemodellierung
- Definiert durch geplante Anwendung
- Vorteil: besser passende Datenmodelle, Informationslücken erkennbar
- Quellenorientiert
- Mapping integrierter Shemata
- Daten aus Datenquellen extrahieren und einheitlich übernehmen
- Defieniren als Anfrage
- über ein Werkzeug möglich
- Notwendige Vorarbeit schon getroffen
- Datenintegrationswerkzeuge
- Datentransformation und Zusammenführung
- Unterstützung bei einem Prozess aller Schritte
- Daten aus Datenquellen extrahieren und einheitlich übernehmen
- Datenzusammenführung
- Vorherige Schritte auf der Schemaebene
- Konkrete Zusammenführung von Datensätzen
- Record Linkage: welche Datensätze entsprechen dem selben Objekt
Data-Lake-Architecture
Definition
- Data-Lake-Architecture is a framework or approach to designing a central repository
to store and manage data in its original format, without any predefined schema.
- A database schema refers to the logical and visual configuration of the entire relational database.
However, that stability like in case with Data-Warehouse is not always the case with big data projects. Most big data systems rely on schema-on- Read concept in the foreground.In contrast, the Data-Warehouse system follows the schema-on-write approach.
- Schema-on-Read means that the data is initially stored without a predetermined schema.
- Schema-on-Write is a traditional approach where data is first structured and transformed
before being loaded into a data storage system.
- The schemas of the data sources and the data warehouse database are known before data is written to the Data-Warehouse database using ETL processes.
- However, the schema-on-write model is not suitable for big data because there is a
larger number, more heterogeneity and greater agility in data sources
- In contrast to Data-Warehouse systems, with data lake systems the data is transferred to the storage level of the system in its original form. Such an approach suits big data and NoSQL systems, which typically do not require the definition of a schema before data can be stored.
- Therefore, a different architecture should be chosen for data provision in big data
projects that allows greater flexibility.
- The data should be stored in the data lake in its original form and a transfer to a uniform scheme as with Data-Warehouse systems is not intended here.
Although in addition to the actual data, metadata should also be extracted from the data sources or recorded separately.
- Metadata is also important for query processing in the data lake system. An integrated query interface doesn't help if you don't know which data management systems contain the desired data.
- Metadata management is even more important in data lake systems than in data warehouse systems. While in data warehouse systems, the mostly relational database management systems can provide sufficient self-information about the schemas of their databases, this is not always the case in the context of Data-Lake-Systems due to the unstructured data.
Datenmodellierung und Metadaten-Management
Datenmodellierung
- Top-Down-Ansatz
- konzeptuelles Datenmodell
- Datenmodell wird verfeinert
- Umsetzung als physisches Modell in einem Datenbank-System
- Bottom-Up-Vorgehen
- existierende Datensätze
- ableiten von logischen Datenmodellen
- Beschreibung von semantischen Zusammenhängen in einem konzeptuellen Datenmodell
-
Data Profiling
- Schemaextraktion
- es reichen Angaben die, beispielsweise für die Erstellung eines relationalen Schemas erforderlich sind
- Erkennung von Attributen
- Integer
- string
- usw.
- Data Profiling
- Erkennung genauerer Wertebereiche oder Muster in Datensätzen
- z.B. eine Spalte "Alter" hat nur Integer-Werte von 0 bis 120 oder eine Spalte "Datum" hat eine Zeichenkette mit dem Muster "DD.MM.YYYY"
- mit Data Profiling werden sehr schnell fehlerhafte Daten und Ausreißer erkannt => deswegen relevant für Datenaufbereitung
- Schemaextraktion
- Datenmodell
- Erstellung eines logischen Datenmodells
- direkte Auslesung von Schemata aus relationalen Datenbank-Systemen
- Beschreibung von Datensätzen
- zumindest Strukturen, Verknüpfungen und Regeln bzw. Einschränkungen(Constraints) von Daten
- Modellierungssprache
- J.Busse: heute überholt:
- Data Definition Language(DDL)
- SQL
- XML Schema
- Unified Modeling Language(UML)
- J.Busse: RDF(S)
- J.Busse: heute überholt:
- Erstellung eines logischen Datenmodells
Metadaten-Management
- Übersicht der vorhandenen Daten
- Aufbau und Verwaltung von Verzeichnis innnerhalb eines Unternehmens => Teil der Data Governance
- So ein Verzeichnis im Data-Lake-System Metadaten die dabei für einen Datensatz erfasst
werden sollen:
- Inhalt: Schlagworte, Themen, Beschreibung
- Herkunft: Quellsystem, Kontext der Datenerfassung (z. B. Ort, Zeit)
- Datenqualität: Messwerte für Datenqualitätseigenschaften (z. B. Vollständigkeit)
- Kontakt: Ansprechpartner für die Datenquelle, Verantwortliche
- Verfügbarkeit: Zugriffsmöglichkeiten, Lizenzinformationen, Nutzungseinschränkungen
- Metadatenmodell = individuell für jedes Unternehmen
- Anpassung für individuellen Bedürfnisse mit bereits entwickelte, ausgereifte Modellen
ersteHälfte-Architekturen_zum_Daten-Management
Data-Management-Systeme in Unternehmen
- Heutzutage Einsatz vieler unterschielicher Systeme
- auch NoSQL -Datenbank-Management-Systeme
- Überwiegend jedoch relationale Systeme ( SQL )
- Soll Ko-Existenz von verschiedenen Architekturen und Systemen gewährleisten
Data-Warehouse-systeme
- Sollen innerhalb eines Unternehmens die Daten aus verschiedenen operativen Systemen zusammenzuführen.
- Daten werden Durch ETL-Prozesse extrahiert und im Data-Warehouse bereitgestellt.
- Falls man Daten verschiedener Nutzergruppen trennen möchte, wird das Data-Warehouse in “ Data Marts ” unterteilt.
- Sind vor allem für Anwendungsfälle geeignet:
- in denen die Datenstrukturen der Datenquellen und benötigten ETL-Prozesse sehr stabil sind und sich nur selten ändern
- wenn man langfristige Zahlen miteinander vergleichen will
OLTP (On-Line Transaction Processing)
- z.B.Erfassung einer Bestellung oder Buchung einer Rechnung
OLAP (On-Line Analytical Processing)
- z.B. Analytische Anfragen, alle Verkaufsaktivitäten in einem Quartal
ETL-Prozesse (Extraktion-Transformation-Laden)
- Sorgen für Aufbereitung der Daten aus den heterogenen OLTP-Systemen
- Können heutzutage die Daten im Data-Warehouse in nahezu Echtzeit aktualisieren
- Erstellung sehr aufwendig
Datenbank-Management-Systeme: SQL, NoSQL und Big Data
Datenbank-Management-Systeme (DBMS)
Eigenschaften
- Über Schnittstelle mit definierter Sprache (z.B. SQL) Daten
- Anlegen
- Löschen
- Ändern
- Abfragen
- Unterstützung von Transaktionen
- Gewährleistung der Persistenz von Daten
Geschichte
- 1970er: Ursprung (RDBMS)
- SQL als Datenbanksprache
- Vorteile
- Datenintegrität
- Konsistenz
- Transaktionssicherheit im Mehrbenutzerbetrieb
- Probleme relationaler DBMS im Kontext verteilter Anwendugen
- CAP-Theorem (Consistency, Availability, Partition Tolerance)
- Anforderungen an verteiltes System
- Gleichzeitige Gewährleistung aller drei Eigenschaften unmöglich → Priorisierung zweier Punkte
- Partition Tolerance bei stark verteilten Anwendungen besonders wichtig (Fehlertoleranz gegenüber Netzwerkunterbrechungen!)
- Problem: klassische relationale Systeme mit keiner oder nur eingeschränkter Verteilung fokussieren sich auf Consistency und Availability
- Inkompabilität der Datenmodelle
- Normalisierte Relationen (RDBMS)
- Normalisierung: Aufteilung großer, redundanter Tabellen in kleinere, zusammenhängende Tabellen → bessere Organisation von Daten und effizienteres Abfragen möglich
- Einfache Zusammenführung von Inhalten über Join-Abfragen
- Problem: Änderung von Daten über mehrere Relationen erfordert komplexe Anwendungslogik und Nutzung von Transaktionen
- Web-Anwendungen: Nutzung objekt-orientierter oder anderer verschachtelter Datenstrukturen (z.B. JSON) und Arbeit mit komplexen Objekten (z.B. Nutzerprofil)
- Normalisierte Relationen (RDBMS)
- CAP-Theorem (Consistency, Availability, Partition Tolerance)
- 1990er: objekt-orientierte Datenmodelle oder XML
- Erweiterung der Funktionalität relationaler Systeme
- Objekt-relationale Funktionen (z.B. Vererbung)
- XML-Datentyp mit entsprechender Abfragemöglichkeiten
- Erweiterung der Funktionalität relationaler Systeme
- 2000er: kostengünstige Skalierbarkeit und Fehlertoleranz bei stark verteilten Anwendungen
gewinnt mit steigender Popularität von großen Internetplattformen (Amazon, Ebay und
Google) an Bedeutung
-
Entwicklung von NoSQL-Systemen
- Ein für Anwendungen besser passendes Datenmodell als SQL
- Direkte Unterstützung eines verteilten Daten-Managements über mehrere Server-Knoten → Fehlertoleranz gegenüber Netzwerkpartitionierungen
- Nach CAP-Theorem: Wahl zwischen jederzeit konsistenten Datenbeständen oder Verfügbarkeit → Verfügbarkeit
- Zwischenzeitlich inkonsistente Datenbestände als Folge (Eventual Consistency)
- Datenmodelle der NoSQL-DBMS
- Key-Value
- Datenobjekte unter Schlüssel gespeichert
- Zugriff auf Datenobjekte über Schlüssel oder auch einfache Abfragemechanismen möglich
- Datenobjekte haben häufig baumartige Struktur (z.B. JSON-Dokument)
- Dokumenten-orientiert
- Ablage von Daten als JSON-Dokumente
- System unterstützt weitergehende Abfragemöglichkeiten über Struktur der Dokumente
- Bsp.: MongoDB als populärstes NoSQL-System
- Wide Column
- Dem relationalen Modell sehr ähnlich → vergleichbare Abfragemöglichkeiten wie SQL
- Dynamische Anpassung der Spalten in Datensätzen möglich → nicht alle Datensätze müssen gleiche Struktur haben
- Graph-orientiert
- Abspeicherung von Graphen mit komplexen Knoten und Kanten möglich
- Knoten und Kanten können verschiedene Typen und Attribute haben
- Mathematische Eigenschaften von Teilgraphen (z.B. Konnektivität, kürzeste Wege) testen und nach bestimmten Mustern im Graphen suchen mithilfe von Abfragen
- Key-Value
- Vor- und Nachteile
- Meist nicht erforderlich ein Schema für Daten zu definieren → direkte Nutzung möglich (Achtung: gewisse Modellierung oder Strukturierung von Daten unausweichlich)
- Mehr Flexibilität und Skalierbarkeit
- Wanderung eines Teils der Logik zur Überprüfung der Datenstruktur oder Integrität neuer Daten vom DBMS in Applikation → Erhöhung von Komplexität der Anwendungen und Implementierungsaufwand
-
Entwicklung von NoSQL-Systemen
- Heute
- Meiste Systeme in einer kostenlosen Open-Source-Variante
- Kostenpflichtige „Enterprise Editions“ für weitere Funktionalität
Data Engineering
Data Engineering ist in der Fachliteratur nicht genau definiert und wird oft im Kontext der Begriffe „Data Management“ und „Information Engineering“ verwendet.
- Datenmanagement ist ein ganzheitliches Konzept zum Umgang mit digitalen Daten, das alle Schritte vom Erheben, über das Speichern und die Verarbeitung bis hin zur Archivierung und Löschung umfasst.
- Information Engineering ist ein Ansatz, der darauf abzielt, Informationssysteme effektiv zu entwickeln, zu implementieren und zu verwalten, um die Geschäftsprozesse zu unterstützen.
Beispiele für Vorgehensmodelle in der Datenanalyse, die verdeutlichen, womit sich das Data Engineering beschäftigt.
- KDD: Knowledge Discovery in Databases
- Verständnis des Problems: Identifikationder Fragestellung, die durch die Analyse gelöst werden soll.
- Datenauswahl : Auswahl der relevanten Datenquellen, die für die Analyse verwendet werden sollen
- Datentransformation: Umwandlung der vorverarbeiteten Daten in ein für die Analyse geeignetes Format.
- Datenmining: Anwendung von Datenmining-Techniken, um Muster, Trends und Wissen aus den vorverarbeiteten Daten zu extrahieren.
- Musterbewertung: Bewertung der extrahierten Muster und Trends hinsichtlich ihrer Relevanz für die gestellte Fragestellung.
- Wissensdarstellung: Darstellung des extrahierten Wissens in einer für die Entscheidungsfindung verständlichen Form.
- Wissensnutzung: Integration des extrahierten Wissens in den Entscheidungsprozess der Organisation.
-
CRISP-DP: Cross Industry Standard Process for Data Mining
- Geschäftsverständnis: Die Klärung des Umfangs und die Festlegung eines vorläufigen Plans zur Erreichung der Geschäftsziele,
- Datenverständnis: Die Identifizierung von Datentypen, die Bewertung der Datenqualität und das Verständnis von Beziehungen innerhalb der Daten.
- Datenpräparation: Das Reinigen, Transformieren und Auswählen von Daten, um einen geeigneten Datensatz für das Modellieren zu erstellen
- Modellierung: Die Auswahl geeigneter Modellierungstechniken, die Identifizierung des am besten geeigneten Modells zur Erreichung der Geschäftsziele.
- Bewertung: Das Testen der Modelle an unabhängigen Datensätzen und die Sicherstellung, dass die Ergebnisse gültig und zuverlässig sind.
- Bereitstellung: Die Integration des Modells in Geschäftsprozesse
-
Data Engineering beschäftigt sich vor allem mit den Aufgaben , die vor der eigentlichen Datenanalyse stattfinden.
- Domain Understanding: Ein detailliertes Verständnis der Daten entwickelt sich nur durch ein Verständnis der Prozesse im Unternehmen, die Daten produzieren und konsumieren.
- Die Formalisierung des Verständnisses über die Daten in einem Datenmodell: Die Formalisierung des Verständnisses über die Daten und die Erkennung von Verknüpfungen und Regeln ermöglicht die Beschreibung einer Struktur für neu zu erfassende Daten.
- Die Aufbereitung und Integration von Daten: Die Umwandlung der Datenmenge in das gewünschte Format, erfolgt mithilfe verschiedener Methoden und Werkzeuge.
- Die Definition einer effizienteren Daten-Management-Architektur: Eine Daten-Management-Architektur ermöglicht die Zusammenführung und Verknüpfung von Daten in einem Unternehmen bei einer intensiven Kommunikation mit verschiedenen Unternehmensbereichen
# KW 49, Thema: {term}`Barton & Kokoev 2021`
http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Barton-Kokoev-2021
Barton, T., Kokoev, A. (2021). Text Mining bei einer wissenschaftlichen Literaturauswertung: Extraktion von Schlüsselwörtern zur Beschreibung von Inhalten. In: Barton, T., Müller, C. (eds) Data Science anwenden. Angewandte Wirtschaftsinformatik. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33813-8_11
- 11.3 Extraktion von Schlüsselwörtern
- Rapid Automatic Keyword Extraction (RAKE)
- 11.4 Extraktion von Schlüsselwörtern für eine Literaturauswertung zu „Explainable AI“
Text-Mining bei einer wissenschaftlichen Literaturauswertung
2. Beispiel: Explainable Artificial Intelligence
1. Was ist Explainable AI?
- KI-Systeme, die ihre Entscheidungsfindung erklären können
2. Verstehen
- „Intellektuelle Erfassung des Zusammenhangs“
- Informationen filtern & gruppieren
- Bsp.: Voraussetzungen, Aktionen, Ziele, ...
3. Erklären
- „Die Ursachen eines beobachteten Sachverhaltes durch eine sprachliche Darlegung seiner logischen und kausalen Zusammenhänge verständlich zu machen“
- Lösung sprachlich korrekt umsetzen und wiedergeben
4. Anwendung in der Gesellschaft
- Positive Reaktion im technischen & wissenschaftlichem Bereich?
- Negative Reaktion in der Gesellschaft bzw. bei Privatpersonen?
KW 49
Extraktion von Schlüsselwörtern: Eine Einführung in Rapid Automatic Keyword Extraction (RAKE)
- Was ist RAKE ? Rapid Automatic Keyword Extraction auch bekannt als RAKE ermöglicht
das zusammenfassen eines Textes mittels Schlüsselwörtern.
- •Textanalyse und Informationsextraktion
- •Suchmaschinenoptimierung (SEO)
- •Dokumentensummarisierung
- •....Vielen anderen bereichen
- Schlüsselwortextraktion mit RAKE
- Schlüsselwörter beschreiben prägnant den Inhalt, unabhängig von Sprache und Domäne
- 1. Anwärter für Schlüsselwörter bestimmen
- • Der Text wird zuerst in einzelne Wörter oder Phrasen aufgeteilt, ein Vorgang, der als Tokenisierung bekannt ist.
- • Häufig verwendete Wörter wie "und", "die", "ist" usw., die als Stoppwörter bezeichnet werden, werden entfernt. Diese Wörter werden in der Regel bei der Schlüsselwortextraktion ignoriert, da sie nicht wesentlich zum Gesamtverständnis beitragen.
- • Die verbleibenden Wörter oder Phrasen werden als potenzielle Schlüsselwortkandidaten betrachtet.
- • Verwendung von Stoppwörtern und Trennzeichen zur Aufteilung des Dokuments in Wörter.
- • Eine Sequenz von benachbarten Wörtern ohne Irrelevanz wird als Schlüsselwortanwärter betrachtet.
- • Schlüsselwortanwärter : Schlüsselwortanwärter sind Wörter oder Phrasen, die im Rahmen eines Algorithmus zur Schlüsselwortextraktion als potenzielle Schlüsselwörter betrachtet werden.
- 2. Kennzahl für Schlüsselwörter ableiten
- Jeder Kandidat wird anhand seiner Häufigkeit im Text und seines Vorkommens in Verbindung mit anderen Wörtern bewertet. Die Idee ist, dass wichtige Schlüsselwörter wahrscheinlich häufig auftreten und in sinnvoller Nähe zu anderen Wörtern stehen.
- RAKE leitet die Kennzahl K(w) für Schlüsselwortanwärter ab.
- Eine Matrix wird erstellt, wobei Zeilen und Spalten durch Schlüsselwortanwärter gebildet werden.
- Durch Matrixelemente werden Worthäufigkeit freq(w) und Wortmaß deg(w) ermittelt. K(w) = deg(w) / freq(w)
- 3. Schlüsselwörter festlegen
- • Endgültige Schlüsselwörter werden ausgewählt
- • -- > die Schlüsselwortanwärter mit den höchsten Werten für die Kennzahl K(w)
- • Diese repräsentieren die bedeutendsten Wörter zur optimalen Beschreibung des Dokumentinhalts.
- Fazit
- RAKE ist eine effektive Methode zur automatischen Extraktion von Schlüsselwörtern.
- Durch klare Strukturierung von Schlüsselwortanwärtern und Ableitung einer aussagekräftigen Kennzahl.
- Sprach- und domänenunabhängigkeit ermöglicht RAKE eine effiziente Analyse und Zusammenfassung von Dokumentinhalten.
KW49_3_2024-01-14
Barten & Kokoev: Extraktion von Schlüsselwörtern
RAKE: Rapid Automatic Keyword Extraction
- Wird benutzt um Schlüsselwörter zu bestimmen
- Kann sich um einzelne Wörter oder Wörterreihen handeln
- Beschreiben den Inhalt des Dokumentes
- Entfernen Punktation und Stoppwörter
Geht in 3 Schritten vor:
- 1) Anwärter für Schlüsselwörter Bestimmen
- Stoppwörter und Trennzeichen entfernen
- Sequenz aus Wörtern von Relevanz werden zu Schlüsselwortanwärtern
- 2) Kennzahl für Schlüsselwörter K(w) ableiten
- Kennzahl für alle Anwärter wird über Worthäufigkeit und Wortmaß bestimmt
- Erstellen einer Matrix:
- Zeilen und Spalten sind Anwärter
- Matrixelement (Kandidat, Kandidat) bestimmt Worthäufigkeit freq(w)
- Worthäufigkeit ist Wert wie oft ein Anwärter auftaucht
- Matrixelement (Kandaidat, AndererKandidat) zeigt wie oft zwei Anwärter gemeinsam erscheinen
- Summe aller Zeilen Kandidat ergibt dann Wortmaß deg(w)
- Wortmaß deg(w) entspricht Anzahl gemeinsam auftretender Anwärter + Worthäufigkeit freq(w)
- Die Kennzahl K(w) ergibt sich durch das dividieren von dem Wortmaß deg(w) durch die Worthäufigkeit freq(w)
- 3) Schlüsselwörter festlegen
- Schlüsselwörter sind Anwärter mit höchster Kennzahl K(w)
# KW 50, Thema: {term}`Peuker & Berton 2021`
http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Peuker-Berton-2021
Peuker, A., Barton, T. (2021). Empfehlungssysteme und der Einsatz maschineller Lernverfahren. In: Barton, T., Müller, C. (eds) Data Science anwenden. Angewandte Wirtschaftsinformatik. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33813-8_6
Klassifikation von ES
6.1 Einleitung
- Nutzer-Objekt-Matrix
6.2 Kollaborative Empfehlungssysteme
- 6.2.1 Ansätze
- nutzerbasierten Ansatz
- objektbasierten Ansatz
- 6.2.2 Methoden
- Cosinusähnlichkeit
- Clustering
- Klassifizierung
6.3 Inhaltsbasierte Empfehlungssysteme
- 6.3.1 Ansatz
- Objektprofile
- Nutzerprofile
- Filterkomponente
- 6.3.2 Methoden
- TF-IDF (Term Frequency times Inverse Document Frequency)
6.4 Weitere Konzepte
- 6.4.1 Demografische Empfehlungssysteme
- 6.4.2 Wissensbasierte Empfehlungssysteme
- 6.4.3 Hybride Empfehlungssysteme
6.5 Aktuelle Entwicklungen
KW 50 Demographische Empfehlungssysteme
Funktionsweise
- Einordnung in Gruppen
- Basiered auf demographischen Daten
- Empfehlungen basierend auf Gruppenzuordnung
Vorteile
- Einfache Erhebung der Daten
- Erforschung von Nischen
- Effizient bei großer Nutzerzahl
Nachteile
- Erfordern persönlicher Daten
- Keine Empfehlungen außerhalb eingeordneter Gruppe
Empfehlungssyteme und der Einsatz maschineller Lernverfahren
KW50_6.5: Aktuelle Entwicklungen
- Konzepte und Ansätze als Anwendungsgrundlage
- Stetige Weiterentwicklung der anzuwendenden Methoden
- Besondere Aufmerksamkeit für Methoden im Bereich des maschinellen Lernens
- Methoden im Bereich des maschinellen Lernens
- Untersuchung des Einsatzes von Methoden für Empfehlungssysteme
- Bayes'sche Methoden und Entscheidungsbäume für Empfehlungsgenerierung
- Betonung auf geringere Komplexität dieser Methoden
- Entwicklung in den letzten Jahren
- Zunehmender Einsatz von Deep Learning-Methoden
- Erfolgreiche Beispiele von Unternehmen wie Google, Facebook und Amazon
- Veröffentlichung von Amazon's Deep Learning Framework DSSTNE unter Open-Source-Lizenz
- Forschungsdiskussion zu Deep Learning
- Vergleich von Deep Learning mit herkömmlichen Methoden in Wettbewerben
- Häufige Übertreffen von bestehenden Verfahren in Bezug auf Performance oder Vorhersagegenauigkeit
- Beobachtung, dass herkömmliche Methoden in den meisten Fällen erfolgreich sind
- Mögliche Ursachen, wie Laufzeitverhalten und Datenvolumen für das Training von neuronalen Netzen
- Training von neuronalen Netzen und Datenvolumen
- Unterschiede zwischen Forschung und Wettbewerben hinsichtlich Datenvolumen
- Ressourcenschonendere Methoden in Wettbewerben aufgrund großer Datensätze
- Lange Rechenzeit für das Training von neuronalen Netzen bei großen Datenvolumen
- Unternehmen verfügen typischerweise über ausreichende Rechenleistung für effizientes Training
- Bedeutung der herkömmlichen Methoden
- Betonung der weiterhin aktuellen Bedeutung herkömmlicher Methoden des maschinellen Lernens
- Wichtigkeit auch im Hinblick auf große Datensätze und Ressourcenanforderungen für neuronale Netze
Ansatz der Inhaltsbasierten Empfehlungssysteme
Profilerstellung
- Objektprofile
- Enthalten charakteristische Eigenschaften
- Userprofile
- Enthalten Nutzereingaben
Profilabgleich
KW-50_6_3 Inhaltsbasierte Empfehlungssysteme:Methoden
Verwendung des Vektorraummodells
- Büchern Eigenschaften
- Textdokumente:Tokenisierung,Stemming,Entfernung von Stoppwörtern
- Präsentation von Textdokumenten
- Vektorraummodell:TF-IDF-Gewichtungsfaktor
- Worteinbettung:Wörter einbetten
Erstellen eines Benutzerprofils
- Profilerstellung:Feedback zu Objekten
- Vorhersage von Interessen:Kosinusähnlichkeit von Vektoren
Anwendung in der Praxis
- Verständnis der Prinzipien von Empfehlungssystemen
- Wirksamkeit in realen Szenarien:Online-Shops,Streaming-Dienste,Informationsplattformen
Methoden von Empfehlungssystemen für Informationsinhalte
- Ein wichtiges Personalisierungstool
- Verbesserung der Benutzererfahrung
Hybride Empfehlungssysteme
Hybride Empfehlungssysteme
- Kombination aus inhaltsbasierten und kollaborativen Filtermethoden
- Überwindung der Grenzen einzelner Algorithmen
- Nutzung der Vorteile verschiedener Ansätzen
Vorteile der HEs
- Verbesserte Genauigkeit
- Anpassungsfähigkeit
- Robustheit
Nachteile der HEs
- Ressourcenintensiv
- Komplexität
- Mangelnde Erklärbarkeit
Beispiele für HEs
- Amazon
- Spotify
- Netflix
Netflix Empfehlungssysteme
- Ähnlichkeiten mit anderen Mitgliedern
- Nutzerinteraktionen ( z.B angesehene Titel, Bewerbung )
- Details zu Titeln ( Genre, Schauspieler, Erscheinungsjahr)
- Nutzungsdauer
- Verwendete Geäte
Kollaborative Empfehlungssysteme
Ansätze
- Nutzbasierter Ansatz: Ähnlichkeiten zwischen Nutzern anhand der Korrelation ihrer Bewertungen berechnet werden
- Objektbasierter Ansatz: Ähnlichkeiten zwischen Objekten anhand der Korrelation des Nutzerfeedbacks berechnet werden
Methoden
- Speicherbasierte Methoden
- Die Aehnlichkeit zwischen Nutzern oder Objekten berechnen
- Gesamte Nutzer-Objekte Matrix unter Verwendung der Cosinusähnlichkeit nutzen:
- Modellbasierte Methoden
-
- Ein statistisches Modell generieren, mittels Methoden des maschinellen Lernens.
- Typische Methoden
- Clustering: Gruppierung der Daten in verschiedene Cluster nach „Ähnlichkeit“
- Klassifizierung: Ein Modell mittels eines Datensatzes trainiert wird. Hier wird der Bayes’scher Klassifikator verwendet
-
# KW 51, Thema: {term}`Hammesfahr & Spott 2021`
http://jbusse.de/dsci-101/dsci-101-quellen.html#term-Hammesfahr-Spott-2021
Hammesfahr, J., Spott, M. (2021). Identifikation relevanter Zusammenhänge in Daten mit maschinellem Lernen. In: Barton, T., Müller, C. (eds) Data Science anwenden. Angewandte Wirtschaftsinformatik. Springer Vieweg, Wiesbaden. https://bibaccess.fh-landshut.de:2188/10.1007/978-3-658-33813-8_12
Identifikation relevanter Zusammenhänge in Daten mit maschinellem Lernen (kW51)
Einleitung:
- Bsp.: Bereich der Telekommunikation
- Ziel: Reduzierung des Aufwandes ohne Kunden zu verärgern
- Nutzung von Daten
- Ansätze für Fehlerreduktion
- Identifikation von Zusammenhängen durch:
- Subgroup Discovery
- Lernverfahren für Assoziationsregeln
- Problem: zu große Anzahl an Zusammenhängen
- ZIEL: Reduzierung von Zusammenhängen auf handhabbare Größe, ohne interessante Zusammenhänge zu verlieren
Fachliche Problemstellung:
- Datenbasis
- fachliche Domäne eines Fahrzeugherstellers
- anonymesierte, reale, betriebliche Daten
- keine Veränderung der statistischen Struktur der Zusammenhänge
Ansätze zur Reduzierung von Regelmengen:
- Rule Learning:
- beschäftigt sich mit dem Thema 'von gegebener Datenbasis interessante Regeln ableiten'
- Descriptive Rule Discovery:
- wie individuelle interessante Muster in Daten extrahiert werden können
- Association Rule Discovery:
- Generierung von Assoziationsregeln in einer Datenbasis
- Subgroup Discovery:
- Ableitung interessanter Zusammenhänge
- mit Bezug auf eine festgelegte Eigenschaft der Individuen einer Datenbasis
Gütebestimmung von reduzierten Regelmengen:
- Ganzheitlichkeit
- Komplexität
- Interessantheit
- Redundanzfreiheit
Kombinationssystematik:
- mögliche Beziehungen zw. zwei Regeln
- eine Teilmengenbeziehung
- keine Teilmengenbeziehung, eine Schnittmenge
- keine Schnittmenge
Ableitung von fünf Schritten:
- Entfernung reiner Redundanz
- Approximation ähnlicher Regeln mit einer Teilmengenbeziehung
- Approximation ähnlicher Regeln mit einer dominanten Schnittmenge
- Anwendung von Beschränkungen
- Selektion einer interessanten Regelmenge
Ergebnisse:
- Implementierung in eine Programmiersprache
- Reduzierung der Regelmengen anhand von der Systematik
- wenige Regeln mit wenig Redundanz selektieren
- zwei reduzierte Regelmengen, die sich bzgl. der Evaluationsgrößen als gut bewerten lassen
- manuelle Auswertung durch Experten leicht handhabbar
- einzelne Regeln sind unterschiedlich
- gezielte Betrachtung relevanter Faktoren
Zusammenfassung:
- Ziel
- interessante Zusammenhänge zw. Produktkonfigurationen und Produktfehlern
- Reduzierung Anzahl der Zusammenhänge auf ein handhabbares Maß ohne Informationen zu verlieren
- Ergebnis
- Reduzierung der 165.720 Zusammenhänge auf 2 mögliche Regelmengen mit 81 und 24 Regeln
- kleine Anzhal an Regeln ermöglicht die Zusammenhänge sequenziell durchzugehen
- fachliche Bewertung durch Experten
- ob Erkenntnisse für eine Verbesserung der Produktqualität gewonnen werden kann
- Weg
- Einbringung von Kontextwissen der Experten für optimale Komprimierung
Quelle:
Gütebestimmung von reduzierten Regelmengen
Allgemeines
- Messgrößen werden zur Bewertung einer Reduktion einer Regelmenge in Bezug auf die ausgehende Zielsetzung benötigt
qualitative Eigenschaften zur Bewertung von Mustern aus der Literatur
- zur Gruppierung von Kennzahlen im Rahmen der Subgroup Discovery
- Komplexität
- Generalität
- Genauigkeit
- Interessantheit
- subjektive Messgrößen zur Bewertung von Interessantheit
- Redundanz
- Neuheit
- Unerwartbarkeit
- Nützlichkeit
- Aktionsfähigkeit
aus der Literatur ermittelte qualitative Eigenschaften
- Ganzheitlichkeit
- reduzierte Version der Datenbasis soll keine relevanten Informationen verlieren
- Komplexität
- wird durch die Anzahl der Regeln bestimmt
- Interessantheit
- Messung erfolgt anhand durchschnittlicher Werte der jeweiligen Qualitätskennzahlen einer Regel
- Ableitung der Tendenz einer einfachen Kennzahl erfolgt über eine Rang-Funktion, anschließend wird Durchschnitt des besten und schlechtesten Ranges gebildet
- soll gegenseitige Bekräftigung ähnlicher Qualitätsfunktionen verhindern
- Redundanzfreiheit
- viele redundante Regeln enthalten als Ganzes relativ zur Regelmenge wenig neue Informationen
- Kennzahl für Redundanz ist die durchschnittliche Abdeckung eines Datensatzes durch eine Regel (entspricht Expected Cover Count)
Fachliche Problemstellung
Datenbasis: Fahrzeughersteller
- Urprung der Daten
- Fiktive Fahrzeughersteller
- Anonymisierung der Begrifflichkeiten
- Wichtiger Erfolgsfaktor
- Kundenzufriedenheit
- Einflussfaktoren auf Kundenzufriedenheit
- Qualität der produzierten Fahrzeuge
- Messung durch FAULT_RATE
- Verschieden FAULT_TYPE
- Qualität der produzierten Fahrzeuge
- Merkmale zu identifizierung der Ursachen
- AGE
- DEALERSHIP
- CUSTOMER_TYPE
- COUNTRY
- GEO_TYPE
- MODEL
- USER_CUSTOMIZED
- Aggregation der Daten
- CAR_COUNT
- FAULT_COUNT
- Fehlerrate
Alternative Herangehensweise zur Identifizierung interessanter Zusammenhänge
- Visuelle Exploration der Datenbasis
- Exemplarische Abbildung für Fahrzeugmodelle(Bsp. Abb. 12.2)
- Hopper
- Quantum
- Ultima
- Boxplots der Fehlerraten
- Unterschiede zwischen Modelle und Fehlertypen
- Notwendigkeit einer übersichtlichen Zusammenfassung
- Exemplarische Abbildung für Fahrzeugmodelle(Bsp. Abb. 12.2)
Werteausprägungen der Merkmale
- AGE
- In Warranty
- Out of Warranty
- DEALERSHIP
- Franchise
- Re-import
- Branch
- Used Car Dealer
- CUSTOMER_TYPE
- Other
- Private
- Corporate
- COUNTRY
- Portugal
- Germany
- ....(Usw.)
- GEO_TYPE
- Suburban
- Urban
- Village
- ....
- MODEL
- Opal(Abb. 12.1)
- Hopper (Abb. 12.2)
- FAULT_TYPE(Abb. 12.2)
- Air conditioning
- Break Fluid
- ....
KW_51 / Kapitel 5. Kombinationssystematik
1.Entfernung reiner Redundanz
- Ziel: Identifikation und Eliminierung von Teilmengenbeziehungen
- Schritte:
- Identifizierung von Teilmengenbeziehungen
- Anwendung von Closed Non-Derivable Itemsets zur Entfernung redundanter Regeln
2. Approximation ähnlicher Regeln mit einer Teilmengenbeziehung
- Ziel: Entfernung von Regeln mit überlappendem Informationsgehalt
- Schritte:
- Filterung durch Positive Improvement
- Zusammenfassung ähnlicher Regeln durch Negative Replacement
- Verwendung von Condensed Itemsets für die finale Zusammenfassung
3.Approximation ähnlicher Regeln mit einer dominanten Schnittmenge
- Ziel: Reduzierung von Redundanz durch Überlappungskomprimierung
- Schritte:
- Anwendung von Subgroup Suppression
- Berücksichtigung verschiedener Qualitätskennzahlen bei der Ergebniszusammenführung
4. Anwendung von Beschränkungen
- Ziel: Filtern der verbleibenden Regelmenge
- Schritte:
- Festlegung von Mindestsupport und Mindestkonfidenz
- Anpassung der Beschränkung "Minimal Improvement" unter Berücksichtigung bereits gefilterter Regeln
5. Selektion einer interessanten Regelmenge
- Ziel: Auswahl diverser Regeln für umfassenden Einblick
- Schritte:
- Anwendung von verschiedenen Selektionsstrategien
- Auswahl von Regeln, die vielfältige Einblicke bieten
kw51 Empfehlungssysteme
- Inhaltsbasierende Empfehlungssysteme
- 3 wesentliche Schritte:
- Präferenzen ermitteln
- für jedes Objekt ein Profil anlegen
- abgleichen
- Methoden
- Vektor-Raum-Modell
- Word Embedding
- 3 wesentliche Schritte:
- Kollaborative Empfehlungssysteme
- 2 Ansätze
- Nutzerbasierter Ansatz
- Objektbasierter Ansatz
- Methoden
- Speicher-basiert
- Modellbasiertes-kollaboratieves-Filtern
- Clustering
- Bayes'scher Klassifikation
- 2 Ansätze
- demografische Empfehlungssysteme
- nutzt vordefinierte Stereotypen
- nutzt auch Nutzer-Objekt-Matrix
- hybride Empfehlungssysteme
- gleicht Nachteile des einen, mit Vorteilen das anderen Empfehlungssystem aus
# KW 2.2024: Nachzügler?
Studienprojekt Text Mining
JB 2024-01-23: unklar, wo das herkommt. Nicht Klausuerrelevant.
Thema
- Analyse des Musterdatenkataloges mittels Text Mining
- Jupyter Notebook - Python
- Bestimmung der Ähnlichkeit der einzelenen Einträge zueinander
- Taggen von Orten und Zeiten
Ziel
- Ziel 1: Möglichkeit, nach ähnlichen Einträgen zu suchen
- Ziel 2: Möglichkeit, nach bestimmten Zeitpunkten (Daten, Jahren) und Städten/Orten zu suchen
Umsetzung
- Säubern des Kataloges
- Taggen der Orte und Zeiten u.a. mittels Regex
- Erneutes Säubern
- Abbildung der Wörter auf 3-Gramme
- Erstellung eines Bag-of-Words für den Gesamtkatalog
- Erstellung eines Bag-of-Words für jeden einzelnen Eintrag
- Bestimmung der Cosinus-Ähnlichkeit über alle Einträge
- Erstellung einer Suchfunktion für getagte Wörter und ähnliche Einträge
Herausforderungen
-
- Fehlerfreie Säuberung
- Relativ große Datenmenge, um sie auf einem normalen Laptop zu analysieren
- Entsprechend schnelle und effizient programmierte Algorithmen notwendig
Weitere Themen
Markdown
Schau'n mer mal, dann sehn mer scho