Text Mining (dsci-txt)

FWPF IF vorrangig für WIF, nach Absprache auch andere Studiengänge

Qualifikationsziel

Die TN können unter Linux in Python mit einschlägigen Bibliotheken (wie z.B. scikit-learn, SpaCy, Gensim, NLTK) schwach strukturierte Texte sowie Tabellendaten aus dem Bereich der Wirtschaftsinformatik mit Verfahren des Machine Learning analysieren, Textähnlichkeit feststellen, klassifizieren, korrelierte Daten vorhersagen.

Praktisch beschäftigen wir uns mit der Bepreisung von Immobilien (Boston Housing Dataset), der Text-Klassifikation (20 Newsgroups Dataset) oder der Sentiment Analysis aufgrund von Produktbewertungen. An weiteren Anwendungsfällen diskutieren wir exemplarisch (Weiss 2015): 8.1 Market Intelligence from the Web | 8.3 Generating Model Cases for Help Desk Applications | 8.8 Mining Social Media | 8.9 Customized Newspapers

Die hier vermittelte Technologie bildet eine Grundlage für weiterführende KI-Anwendungen in der Wirtschaftsinformatik.

Inhalte

Grundlagen des dsc-lab: Linux, bash, Jupyter Notebook, Publizieren mit Jupyterbook etc.
Grundlagen des Machine Learning : Klassifikation, Regression, Modellevalution, Confusion Matrix etc.
Grundlagen der Informationsextraktion aus Text: Regex, NLP mit Spacy etc.
Theorie des Information Retrieval (IR) from text

Medien

Die Veranstaltung beruht auf einem virtuellen Data Science Laboratory http://jbusse.de/dsci-lab/ , das den Studierenden unter VirtualBox als virtuelle Xubuntu-Maschine zur Verfügung gestellt wird.

Literatur

Bücher ("Theorie")

Tobias Roelen-Blasberg: Automatisierte Präferenzmessung: Extraktion und Evaluation von Produktattributen auf Basis von Online-Rezensionen. Springer 2019. https://bibaccess.fh-landshut.de:3081/book/10.1007%2F978-3-658-23831-5
Winfried Gödert, Jessica Hubrich und Matthias Nagelschmidt: Semantic Knowledge Representation for Information Retrieval. De Gruyter Saur 2014. DOI: https://bibaccess.fh-landshut.de:2188/10.1515/9783110329704
Weiss, Sholom M.: Fundamentals of Predictive Text Mining. Springer 2nd ed. 2015 https://bibaccess.fh-landshut.de:3081/book/10.1007%2F978-1-4471-6750-1
Aggarwal, Charu C.: Machine learning for text (2018) https://bibaccess.fh-landshut.de:3081/book/10.1007%2F978-3-319-73531-3

Online ("Praxis")

ausgewählte Einführungs-Lectures aus https://www.kaggle.com/learn/overview
SpaCy https://spacy.io/usage/spacy-101
Beautiful Soup https://www.crummy.com/software/BeautifulSoup/bs4/doc/
RegEx online zum Üben: https://regex101.com/ > Python flavor