Das Modul "Data Analytics" vermittelt den Studierenden eine solide Basis in allen Teilschritten typischer Datenanalysen. Es orientiert sich dabei an folgendem Ablaufdiagramm:
Quelle: Wickham and Grolemund 2017,
https://r4ds.had.co.nz/introduction.html#what-you-will-learn
Die Studierenden lernen jeden Teilschritt exemplarisch kennen und üben die Teilschritte mit Übungsaufgaben. Als Tool kommt Python zum Einsatz.
Das Modul wird aktuell überarbeitet (und dabei u.a. auf die Nutzung von Python umgestellt).
Prüfungsmodalitäten und Inhalte können sich noch ändern
Die Studierenden führen ein konkretes Data Science Projekt durch, erstellen einen schriftlichen Schlussbericht und präsentieren die Ergebnisse in einer Präsentation.
Fachkompetenzen:
Die Teilnehmenden können:
Methodenkompetenzen:
Die Teilnehmenden können:
Selbstkompetenzen:
Die Teilnehmenden können:
Sozialkompetenzen:
Die Teilnehmenden können:
Import/Data-Cleaning/Data-Preparation
Die Studierenden lernen Datensätze nach Python zu importieren und in ein konsistentes Datenformat zu überführen (Aus
Files wie Excel und CSV, aus APIs sowie aus Datenbanken). Sie können mit fehlenden Datensätzen und Ausreissern
umgehen. Sie können Daten mithilfe geeigneter Python-Funktionen in saubere, konsistente und praktische (für die
Weiterverarbeitung) Formate überführen.
Transform/Visualise/Model
Die Studierenden lernen den iterativen Prozess "from Data to Meaning" praktisch kennen. Die Teilschritte "transform /
visualise / model" werden meist mehrfach durchlaufen. Im Einzelnen lernen die Studierenden:
- Datensätze zu transformieren (Variablen zusammenführen, neue Variablen berechnen, Filtern etc.); Wir werden dabei
sowohl "manuelle" Verfahren nutzen (gruppieren, summieren, normalisieren), als auch die PCA (Principal Component
Analysis) exemplarisch einführen (wir werden dabei nicht mathematisch in die Tiefe gehen).
- Datensätze explorativ zu erschliessen; Hierzu gehört die Datenvisualisierung zum Zweck der "Erkundung" und die
Hypothesengenerierung (und teilweise auch Bestätigung). Wir nutzen aber auch Validierungsverfahren wie z.B. die
Residuen Analyse und Kontrolle auf Overfitting mittels Train- und Test-Set.
- Einfache statistische Modelle in der Praxis anwenden (Lineare Regression, Clustering). Sie lernen dabei, dass auch
überwachte (supervised) Modelle zur Hypothesengenerierung eingesetzt werden können.
Communicate
Die Studierenden üben die Kommunikation zentraler Ergebnisse aus Datenanalysen in einer konkreten Fallstudie. Die
Studierenden lernen dabei Tools kennen, welche es Ihnen erlauben ihre Datenanalysen auf einfachste Weise kundengerecht
aufzubereiten und zugänglich zu machen.