Praktische Datenanalyse in R

Der Kurs kann im Rahmen unseres Data Analysis Bootcamp in R (siehe Modul 2) separat gebucht werden.

LMdiagnostics.jpg

Dieser Kurs wurde für Personen konzipiert, die klassische Verfahren aus der Statistik mit Hilfe von R zur Analyse eigener Daten verwenden möchten. Ziel dieses Kurses ist es den Teilnehmern einen guten Überblick über die verschiedenen Datenanalyseverfahren zu vermitteln, sodass die erlernten Methoden selbständig auf die jeweiligen Arbeitsgebiete und Daten angewandt werden können.
Alle verwendeten statistischen Verfahren werden zur Auffrischung erklärt, an echten Datenbeispielen motiviert, demonstriert und mit Hilfe von Übungsaufgaben eingeübt. Zudem wird in dem Anwendungsteil des Kurses auch auf die inhaltliche Interpretation der Ergebnisse eingegangen. Kurssprache und Kursunterlagen sind auf Deutsch.


Der Kurs behandelt folgende Themen:

Kursteilnehmer sollen mit den wichtigsten Konzepten und Begriffen in Data Science, Statistik und der Datenanalyse vertraut gemacht werden und lernen erste explorative Analysen in verschiedenen Datensituationen durchzuführen. 

Themenschwerpunkte Teil 1: Grundlagen der Statistik und Datenanalyse mit ggplot2

  • Definition von Data Science und weiterer Grundbegriffe

  • Einführung in ggplot2 zur Visualisierung von Daten

  • Univariate Deskriptive Statistik und Datenvisualisierung in R: Häufigkeitstabellen, Balkendiagramme, Histogramme, Kerndichteschätzung, Boxplots, Dichten und Verteilungen, QQ-Plots, etc.

  • Multivariate Deskriptive Statistik und Datenvisualisierung in R: Kreuztabellen, Scatter-Plots, Korrelation

Themenschwerpunkte Teil 2: Statistische Inferenz und Modellierung in R

  • Einführung in die statistische Inferenz: Punktschätzung, Intervallschätzung und Konfidenzintervalle

  • Statistische Hypothesentests: 

    • Motivation und Übersicht: Einstichproben vs. zweistichproben Test, einseitiger vs. zweiseitiger Test, gepaarter vs. ungepaarter Tests

    • Interpretation der Ergebnisse und Begriffserklärung: Signifikanzniveau, p-Wert, Teststatistik, etc.

    • Behandelte Tests: t-Test, Welch-Test (Test auf Mittelwertunterschiede), Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest,  Shapiro-Wilk-Test (Test auf Normalverteilung), Kolmogoroff-Smirnow-Test (Test auf beliebige Verteilungen)

    • Multiples Testen: Probleme und Lösungsansätze (z.B. Bonferroni Korrektur)

  • Statistische Modellierung:

    • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Einflussgrößen.

    • Modellevaluation und Modelldiagnose: MSE, R-squared, QQ-plots und Residuenanalyse

    • Ausblick: Generalisierte lineare Modelle (engl. generalized linear models) mit Fokus auf logistische Regression

Software R: ggplot2

Voraussetzungen: Grundlegende Kenntnisse in R (etwa im Umfang vom R Basiskurs oder R Crashkurs)


Anstehende Kurse

Kein passender Kurs verfügbar? Kein Problem, wir richten unser Kursprogramm direkt nach dem Interesse unserer Kunden aus. Teilen Sie uns Ihr Interesse mit und profitieren zusätzlich durch einen 10% bzw. 20% Rabatt.