Modulbeschreibung

Data Science

Kurzzeichen:
M_mwinf.DSCI
Unterrichtssprache:
Deutsch
ECTS-Credits:
6
Arbeitsaufwand (h):
180
Leitidee:

Die wertvollste ökonomische Ressource sind heutzutage Daten. Im Zeitalter der Digitalisierung werden Daten praktisch in allen Lebensbereichen generiert, u.a. bei der Nutzung des Internets, in Lieferketten, in Prozessen oder durch Sensoren aller Art (In-ternet of Things). Der grösste Nutzen entsteht nicht durch die Daten selber, sondern ergibt sich durch ihre Auswertung mit Hilfe von Data Mining. Dadurch können u.a.

  • Muster und strukturelle Zusammenhänge sichtbar werden (z.B. welche Waren typischerweise gemeinsam gekauft werden),
  • Objekte nach vorgegebenen Kriterien klassifiziert werden (z.B. dass eine Email Spam ist),
  • Vorhersagen zukünftiger Ereignisse generiert werden (z.B. dass eine Maschine in Kürze einen Defekt haben wird).

In diesem Modul werden anhand von typischen Anwendungsfällen grundlegende Methoden der Datenanalyse sowohl für strukturierte als auch für unstrukturierte Daten eingeführt. Es wird ein Verständnis vermittelt, welche Methoden für welche Arten von Problemstellungen angemessen sind, und wie man in einem Datenanalyse-Projekt vorgeht.

Modulverantwortung:
Dr. Tödtli Beat
Standort (angeboten):
St. Gallen (Standard)
Zusätzliche Eingangskompetenzen:

Die Studierenden bringen in den folgenden Bereichen Grundwissen und -kenntnisse mit:

  • Prinzipien des Data Mining sowie exemplarische Verfahren für Klassifikation und Clustering;
  • Typische Ablaufschritte eines Data Mining Prozesses (CRISP o.ä.);
  • Grundlegende Erfahrung in der Verwendung von Data Mining Werkzeugen wie R, Rapid Miner o.ä.
Modultyp:
Pflichtmodul für MSc Wirtschaftsinformatik STD_23(Keine Semesterempfehlung)Kategorie:Kernmodule (MScWINF_KM)
Bemerkungen:

Workload[h]

Kontaktstudium: 36

Begleitetes Selbststudium: 66

Unbegleitetes Selbststudium: 78

Modulbewertung:
Note von 1 - 6

Leistungsnachweise und deren Gewichtung

Modulschlussprüfung:
Schriftliche Prüfung, 90 Minuten
Bemerkungen zur Prüfung:

open book

Während der Unterrichtsphase:
Bewertungsart:
Note von 1 - 6
Gewichtung:
  • Abschlussprüfung: 100%
Bemerkungen:

Prüfungszulassung:

  • 75% erfolgreich bearbeitete praktische Übungsaufgaben aus dem begleiteten Selbststudium. (unbenotet)

Inhalte

Angestrebte Lernergebnisse (Abschlusskompetenzen):

Ausgangskompetenzen / Grobziele

Die Studierenden...

  • Sind in der Lage, ein gegebenes Data Mining Problem methodisch begründet anzugehen, die resultierende Lösung angemessen zu evaluieren und iterativ zu verbessern.
    Ziele

 

Fachkompetenz

Die Studierenden...

  • Verstehen, welche Massnahmen in den einzelnen Schritten des Data Mining Prozesses welche Auswirkungen auf die Güte des Ergebnisses haben können (z.B. Formulierung des Lernproblems, Sampling, Feature Engineering, Hyperparameter, verwendete Evaluationsmasse);
  • Können je nach gegebener Data Mining Aufgabe einen dafür angemessenen Algorithmus auswählen (z.B. entsprechend des Typs der Aufgabe, Art der Daten, Grösse des Samples, Menge und Art der Features);
  • Können die Begriffe «Data Mining», «Text Mining» (TM) und «Information Extraction from Texts» (IE) von-einander abgrenzen;
  • Kennen die verschiedenen Aufgabentypen sowie exemplarisch zugehörige Algorithmen im Kontext von TM/IE;
  • Kennen die spezifische Vorgehensweisen für die Analyse von unstrukturierten Daten (Text, Multimedia- und Sensordaten);

 

Methodenkompetenz

Die Studierenden...

  • Können eine Data Mining Pipeline aufbauen, schrittweise verbessern und ihr Vorgehen begründen;
  • Können nach Veränderung einer Pipeline beobachtete Effekte erklären (z.B. Auswahl eines anderen Klassifikationsalgorithmus, Setzen anderer Werte von Hyperparametern, Feature Engineering Massnahmen, Veränderung des Trainings-Sample);
  • Können Texte und Multimedia-Daten in einer angemessenen Weise vorverarbeiten, so dass weitere Analyseschritte möglich werden;
Modul- und Lerninhalt:
  • Grundlagen Klassifikation: Entscheidungsbäume, Evaluation, Over-/Underfitting, Sampling, Feature Engineering
  • Klassifikation – Algorithmen: Bayes Classifier, Support Vector Machines, Ensemble Techniken, Regelinduktion
  • Klassifikation auf Multimedia- und Sensordaten: Features für Multimedia- und Sensordaten, Neuronale Netze, Deep Learning
  • Unsupervised Learning: Clustering, Outlier Detection
  • Big Data: Federated Learning, Stream Learning, Inkrementelles Lernen,
  • Data Mining auf Texten: Features für Text, Topic Modeling, Distributional Semantics, Information Extraction, Text Clustering, Text Klassifikation, Text Mining
Lehr- und Lernmethoden:

Kontaktstudium

  • Dialogorientierter Unterricht mit integrierten Gruppenübungen (Papierübungen sowie Übungen mit einem Data Mining Werkzeug)

 

Begleitetes Selbststudium

  • Übungsaufgaben mit einem Data Mining Werkzeug (als Gruppenübung)
Lehrmittel/-materialien:

Empfohlene Literatur

  • P.-N. Tan, M. Steinbach, A. Karpatne, V. Kumar: Introduction to Data Mining. Second Edition. Pearson, 2020.
  • M. R. Berthold, Ch. Borgelt, F. Höppner, F. Klawonn, R. Silipo: Guide to Intel-ligent Data Science. Second Edition. Springer, 2020.

 

Ergänzende Literatur

  • C.C. Aggarwal: Data Mining. Springer, 2015.
  • C.C. Aggarwal: Machine Learning for Text. Springer, 2018.
  • C.M. Bishop: Pattern Recognition and Machine Learning. Springer, 2006.
  • R. Rojas: Neural Networks. Springer, 1996.