Zurück zu allen Events

Webinar: Machine Learning Bootcamp in R


Kursbeschreibung

Der Machine Learning Bootcamp in R vermittelt in einzeln buchbaren Modulen Kenntnisse im überwachten maschinellen Lernen (engl. supervised machine learning) in Modul 1 und im unüberwachten maschinellen Lernen (engl. unsupervised machine learning) in Modul 2, sowie praktisches Wissen zum interpretierbaren maschinellen Lernen in Modul 3. Für die Anwendungsbeispiele und praktische Übungsaufgaben kommt die statistische Software R zum Einsatz.

Ziel: Vermittlung von Kenntnissen zur Anpassung und Verbesserung von Vorhersagemodellen, zum Auffinden von Strukturen in den Daten und zur Interpretation von Algorithmen und Methoden aus dem Bereich des maschinellen Lernen mit praktischen Beispielen in R. Dies soll es den Teilnehmern erleichtern, in ihrem Arbeitsalltag eigene Vorhersagemodelle zu optimieren und Projekte zielgerichtet bearbeiten zu können, ohne sich tagelang selber in bestimmte Themen einarbeiten zu müssen. Zudem werden in den einzelnen Themenblöcken hilfreiche Zusatzpakete in R empfohlen, deren Nutzung oft unnötige Programmierarbeit, zusätzliche Recherchen und Anfängerfehler ersparen können.

Beschreibung der Module (diese können auch einzeln gebucht werden):


Anmeldeformular

Module können einzeln gebucht werden, beachten Sie die Vorraussetzungen aus der jeweiligen Kursbeschreibung. Jetzt unverbindlich Voranmelden und Platz sichern:


Modul 1: Supervised Machine Learning in R (3-tägig)

Themenschwerpunkte Teil 1: Einführung in Machine Learning und Predictive Modeling

Kursteilnehmer sollen mit den wichtigsten Konzepten und Begriffen des maschinellen Lernens vertraut gemacht werden, sowie erste einfache überwachte Lernmodelle trainieren und evaluieren. Folgende Themen werden behandelt:

  • Allgemeine Fragestellungen im maschinellen Lernen (Regression, Klassifikation, Clustering, …)

  • Einführung allgemeiner Begriffe (Verlustfunktion, Risikominimierung, Overfitting, Hyper- und Modelparameter, Training- und Testdaten, …)

  • Lineare und Logistische Regression aus der Perspektive des maschinellen Lernens

  • K-nächste Nachbarn Verfahren

  • Wichtige Evaluationmaße für Regression und Klassifikation und deren Eigenschaften

  • Resampling Methoden (Kreuzvalidierung, Bootstrap, …) und deren Vor- und Nachteile

Themenschwerpunkte Teil 2: Praktisches Machine Learning - Evaluation und Tuning

In diesem Kursteil werden verschiedene Algorithmen des überwachten maschinellen Lernens eingeführt. Dabei werden Vor- und Nachteile der Modelle diskutiert. Zudem werden weitere fortgeschrittene Konzepte für (überwachtes) maschinelles Lernen vermittelt um praktische Probleme besser und effizienter lösen zu können. Folgende Themen werden behandelt:

  • Funktionsweise wichtiger Machine Learning Algorithmen:

    • Regressions- und Klassifikationsbäume

    • Random Forests, ggf. Ausblick auf (Gradienten) Boosting 

  • Hyperparameter Optimierung (Zufallssuche und Gittersuche)

  • Genestete Kreuzvalidierung zur optimalen Modellwahl

  • Fallstricke und praxisrelevante Tipps bei der Modell-Evaluation und Modellwahl

Themenschwerpunkte Teil 3: Machine Learning Pipelines, Datenvorverarbeitung und Feature Engineering

Die Kursteilnehmer lernen praktische Methoden kennen, um häufig auftretende Probleme und Herausforderungen in Daten zu lösen und komplizierte machine learning pipelines anzuwenden. Folgende Themen werden behandelt:

  • Einfache Vorverarbeitungsmethoden (z.B. konstante und gedoppelte Feature identifizieren und entfernen)

  • Feature Transformationen (Skalierung, Zentrierung, ...)

  • Umgang mit kategorialen Features (Dummy und Impact Kodierung)

  • Fehlende Werte und Imputation

  • Unbalancierte Daten (Over/Undersampling)

  • Ausblick: Automatic Machine Learning

Software R: mlr3, mlr3tuning, mlr3pipelines, ranger

Voraussetzungen:

Modul kann einzeln gebucht werden.


Modul 2: Unsupervised Learning in R (1-tägig)

Während beim überwachten maschinellen Lernen (engl. supervised machine learning) Vorhersagemodelle und das Erstellen akkurater Prognosen für eine bestimmte Zielgröße im Vordergrund ist, steht im unüberwachten maschinellen Lernen (engl. unsupervised machine learning) das Auffinden von Strukturen und Erkennen von Mustern in den Daten (ohne Kenntnisse über die Zielgröße) im Vordergrund. Hauptkomponentenanalyse (PCA) und Clusteranalyse sind bekannte Verfahren aus dem Bereich des Unsupervised Machine Learning und werden in diesem Kurs ausführlich behandelt. Die Themenschwerpunkte sind:

  • Zur Wiederholung: Kurze Einführung in die univariate und multivariate Datenanalyse mit R.

  • Abgrenzung zwischen Supervised Machine Learning und Unsupervised Machine Learning, insbesondere zwischen Klassifikation und Clustering.

  • Clusteranalyse - Auffinden von Gruppen bzw. Ähnlichkeitsstrukturen in Daten:

    • Hierarchische Clusteranalyse: Distanzmaße für Beobachtungen und Cluster (Linkage-Methoden), Dendrogramme und deren Interpretation

    • Partitionierende Clusteralgorithmen: k-Means, k-Median, k-Medoids

    • Kennzahlen für die Evaluation der Ergebnisse von Clusteralgorithmen (bzw. Indizes zur Clustervalidierung).

    • Eigenschaften, Vergleich, sowie Vor- und Nachteile verschiedener Clusterverfahren

  • Dimensionsreduktion mittels Hauptkomponentenanalyse (PCA) und die Erweiterung auf sparse und hochdimensionale Daten.

Voraussetzungen:

Modul kann einzeln gebucht werden.


Modul 3: Interpretable Machine Learning in R (1-tägig)

Im Gegensatz zu Modelle aus der klassischen Statistik wie beispielsweise das lineare Regressionsmodell werden Machine Learning Modelle oft als intransparente Blackbox bezeichnet, da ihre Vorhersagen in der Regel nicht leicht nachvollziehbar sind. Um dennoch Machine Learning Modelle und ihre Vorhersagen besser verstehen zu können, wurden in den letzten Jahren zahlreiche post-hoc Methoden aus dem Bereich des interpretierbaren maschinellen Lernen (auch eXplainable Artificial Intelligence bzw. XAI genannt) entwickelt.

In diesem Modul lernen Teilnehmer die aktuell bekanntesten und wichtigsten modell-agnostischen Methoden für die Interpretation von Prognosemodellen, ihr Nutzen in der Praxis, sowie ihre Vor- und Nachteile. Der Fokus der Anwendungsbeispiele liegt dabei auf Machine Learning Modelle, die auf klassische tabulare Daten trainiert wurden. Die Themenschwerpunkte sind:

  • Motivation modell-agnostischer Interpretierbarkeit und deren Eingliederung in globaler und lokaler Methoden

  • Permutation feature importance um die Wichtigkeit von Variablen zu quantifizieren

  • Partial dependence (PD) plots um den erwarteten Variablen-Effekt zu visualisieren

  • Individual conditional expectation (ICE) plots um den Variablen-Effekt einzelner Beobachtungen zu visualisieren

  • Überblick über weitere Methoden wie LIME und Shapley values.

  • Diskussion allgemeiner Fallstricke im bei der Anwendung von Machine Learning.

Software R: iml

Voraussetzungen:

Modul kann einzeln gebucht werden.


Frühere Events: 19. Februar
Webinar: Data Analysis Bootcamp in R
Späteres Event: 13. Juni
Hybrid-Seminar: Python Basiskurs