Modulbeschreibung

Data Analytics

Kurzzeichen:
M_DAANA
Unterrichtssprache:
Deutsch
ECTS-Credits:
4
Leitidee:

Das Modul "Data Analytics" vermittelt den Studierenden eine solide Basis in allen Teilschritten typischer Datenanalysen. Es orientiert sich dabei an folgendem Ablaufdiagramm:

 

Quelle: Wickham and Grolemund 2017, 
https://r4ds.had.co.nz/introduction.html#what-you-will-learn 

Die Studierenden lernen jeden Teilschritt exemplarisch kennen und üben die Teilschritte mit Übungsaufgaben. Als Tool kommt Python zum Einsatz.

Modulverantwortung:
Prof. Stämpfli Adrian
Standort (angeboten):
St.Gallen (Informatik Raster)
Modultyp:
Wahlpflicht-Modul für Wirtschaftsingenieurwesen STD_21(Keine Semesterempfehlung)Kategorie:Technik, Produktion, Logistik und IT (W-TPLI)
Wahl-Modul für Data Science STD_21 (VR)
Wahlpflicht-Modul für Wirtschaftsingenieurwesen STD_24(Keine Semesterempfehlung)Kategorie:Technik, Produktion, Logistik und IT (W-TPLI)
Wahl-Modul für Data Science STD_24 (VR)
Bemerkungen:

Das Modul wird aktuell überarbeitet (und dabei u.a. auf die Nutzung von Python umgestellt).

Prüfungsmodalitäten und Inhalte können sich noch ändern

Modulbewertung:
Note von 1 - 6

Leistungsnachweise und deren Gewichtung

Modulschlussprüfung:
Mündliche Prüfung, 30 Minuten
Während der Unterrichtsphase:

Die Studierenden führen ein konkretes Data Science Projekt durch, erstellen einen schriftlichen Schlussbericht und präsentieren die Ergebnisse in einer Präsentation.

Bewertungsart:
Note von 1 - 6

Inhalte

Angestrebte Lernergebnisse (Abschlusskompetenzen):

Fachkompetenzen:

Die Teilnehmenden können: 

  • Datensätze nach Python importieren. 
  • Datensätze in ein konsistentes Datenformat überführen. 
  • Daten mithilfe geeigneter Python-Funktionen in saubere, konsistente und 
    praktische Formate überführen. 
  • Datensätze explorativ erschliessen mittels Datenvisualisierung und 
    Hypothesengenerierung/-bestätigung. 
  • Validierungsverfahren (z.B. Residuen-Analyse und Kontrolle auf Overfitting 
    mittel Train- und Test-Set. 
  • Einfache statistische Modelle (Lineare Regression, Clustering) in der Praxis 
    anwenden. 
  • überwachte (supervised) Modelle zur Hypothesengenerierung einsetzen. 
  • Datenanalysen mit Python auf einfachste Weise kundengerecht aufbereiten 
    und zugänglich machen.

 

Methodenkompetenzen:

Die Teilnehmenden können:

  • zentrale Ergebnisse aus Datenanalysen in einer konkreten 
    Fallstudie kommunizieren.
  • mit fehlenden Datensätzen und Ausreissern umgehen.
  • Datensätze transformieren (Variablen zusammenführen, neue 
    Variablen berechnen, filtern).

 

Selbstkompetenzen:

Die Teilnehmenden können:

  • Eine relativ komplexe Datenanalyse Aufgabe sinnvoll in Teilschritte 
    zerlegen und zielgerichtet umsetzen

 

Sozialkompetenzen:

Die Teilnehmenden können:

  • Datenanlysen von Kolleg_innen sinnvoll challengen und Feedback 
    gezielt anbringen
Modul- und Lerninhalt:

Import/Data-Cleaning/Data-Preparation
Die Studierenden lernen Datensätze nach Python zu importieren und in ein konsistentes Datenformat zu überführen (Aus 
Files wie Excel und CSV, aus APIs sowie aus Datenbanken). Sie können mit fehlenden Datensätzen und Ausreissern 
umgehen. Sie können Daten mithilfe geeigneter Python-Funktionen in saubere, konsistente und praktische (für die 
Weiterverarbeitung) Formate überführen.


Transform/Visualise/Model
Die Studierenden lernen den iterativen Prozess "from Data to Meaning" praktisch kennen. Die Teilschritte "transform / 
visualise / model" werden meist mehrfach durchlaufen. Im Einzelnen lernen die Studierenden:
- Datensätze zu transformieren (Variablen zusammenführen, neue Variablen berechnen, Filtern etc.); Wir werden dabei 
sowohl "manuelle" Verfahren nutzen (gruppieren, summieren, normalisieren), als auch die PCA (Principal Component 
Analysis) exemplarisch einführen (wir werden dabei nicht mathematisch in die Tiefe gehen).
- Datensätze explorativ zu erschliessen; Hierzu gehört die Datenvisualisierung zum Zweck der "Erkundung" und die 
Hypothesengenerierung (und teilweise auch Bestätigung). Wir nutzen aber auch Validierungsverfahren wie z.B. die 
Residuen Analyse und Kontrolle auf Overfitting mittels Train- und Test-Set.
- Einfache statistische Modelle in der Praxis anwenden (Lineare Regression, Clustering). Sie lernen dabei, dass auch 
überwachte (supervised) Modelle zur Hypothesengenerierung eingesetzt werden können.


Communicate
Die Studierenden üben die Kommunikation zentraler Ergebnisse aus Datenanalysen in einer konkreten Fallstudie. Die 
Studierenden lernen dabei Tools kennen, welche es Ihnen erlauben ihre Datenanalysen auf einfachste Weise kundengerecht 
aufzubereiten und zugänglich zu machen.