Text Mining (dsci-txt)

FWPF IF vorrangig für WIF, nach Absprache auch andere Studiengänge

Qualifikationsziel

Die TN können unter Linux in Python mit einschlägigen Bibliotheken (wie z.B. scikit-learn, SpaCy, Gensim, NLTK) schwach strukturierte Texte sowie Tabellendaten aus dem Bereich der Wirtschaftsinformatik mit Verfahren des Machine Learning analysieren, Textähnlichkeit feststellen, klassifizieren, korrelierte Daten vorhersagen.

Praktisch beschäftigen wir uns mit der Bepreisung von Immobilien (Boston Housing Dataset), der Text-Klassifikation (20 Newsgroups Dataset) oder der Sentiment Analysis aufgrund von Produktbewertungen. An weiteren Anwendungsfällen diskutieren wir exemplarisch (Weiss 2015): 8.1 Market Intelligence from the Web | 8.3 Generating Model Cases for Help Desk Applications | 8.8 Mining Social Media | 8.9 Customized Newspapers

Die hier vermittelte Technologie bildet eine Grundlage für weiterführende KI-Anwendungen in der Wirtschaftsinformatik.

Inhalte

  • Grundlagen des dsc-lab: Linux, bash, Jupyter Notebook, Publizieren mit Jupyterbook etc.
  • Grundlagen des Machine Learning : Klassifikation, Regression, Modellevalution, Confusion Matrix etc.
  • Grundlagen der Informationsextraktion aus Text: Regex, NLP mit Spacy etc.
  • Theorie des Information Retrieval (IR) from text

Medien

Die Veranstaltung beruht auf einem virtuellen Data Science Laboratory http://jbusse.de/dsci-lab/ , das den Studierenden unter VirtualBox als virtuelle Xubuntu-Maschine zur Verfügung gestellt wird.

Literatur

Bücher ("Theorie")

Online ("Praxis")