Text Mining (dsci-txt)
FWPF IF vorrangig für WIF, nach Absprache auch andere Studiengänge
Qualifikationsziel
Die TN können unter Linux in Python mit einschlägigen Bibliotheken (wie z.B. scikit-learn, SpaCy, Gensim, NLTK) schwach strukturierte Texte sowie Tabellendaten aus dem Bereich der Wirtschaftsinformatik mit Verfahren des Machine Learning analysieren, Textähnlichkeit feststellen, klassifizieren, korrelierte Daten vorhersagen.
Praktisch beschäftigen wir uns mit der Bepreisung von Immobilien (Boston Housing Dataset), der Text-Klassifikation (20 Newsgroups Dataset) oder der Sentiment Analysis aufgrund von Produktbewertungen. An weiteren Anwendungsfällen diskutieren wir exemplarisch (Weiss 2015): 8.1 Market Intelligence from the Web | 8.3 Generating Model Cases for Help Desk Applications | 8.8 Mining Social Media | 8.9 Customized Newspapers
Die hier vermittelte Technologie bildet eine Grundlage für weiterführende KI-Anwendungen in der Wirtschaftsinformatik.
Inhalte
- Grundlagen des dsc-lab: Linux, bash, Jupyter Notebook, Publizieren mit Jupyterbook etc.
- Grundlagen des Machine Learning : Klassifikation, Regression, Modellevalution, Confusion Matrix etc.
- Grundlagen der Informationsextraktion aus Text: Regex, NLP mit Spacy etc.
- Theorie des Information Retrieval (IR) from text
Medien
Die Veranstaltung beruht auf einem virtuellen Data Science Laboratory http://jbusse.de/dsci-lab/ , das den Studierenden unter VirtualBox als virtuelle Xubuntu-Maschine zur Verfügung gestellt wird.
Literatur
Bücher ("Theorie")
- Tobias Roelen-Blasberg: Automatisierte Präferenzmessung: Extraktion und Evaluation von Produktattributen auf Basis von Online-Rezensionen. Springer 2019. https://bibaccess.fh-landshut.de:3081/book/10.1007%2F978-3-658-23831-5
- Winfried Gödert, Jessica Hubrich und Matthias Nagelschmidt: Semantic Knowledge Representation for Information Retrieval. De Gruyter Saur 2014. DOI: https://bibaccess.fh-landshut.de:2188/10.1515/9783110329704
- Weiss, Sholom M.: Fundamentals of Predictive Text Mining. Springer 2nd ed. 2015 https://bibaccess.fh-landshut.de:3081/book/10.1007%2F978-1-4471-6750-1
- Aggarwal, Charu C.: Machine learning for text (2018) https://bibaccess.fh-landshut.de:3081/book/10.1007%2F978-3-319-73531-3
Online ("Praxis")
- ausgewählte Einführungs-Lectures aus https://www.kaggle.com/learn/overview
- SpaCy https://spacy.io/usage/spacy-101
- Beautiful Soup https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- RegEx online zum Üben: https://regex101.com/ > Python flavor