Machine Learning in R

Im Alltag, in den Medien und in der Wirtschaft werden die Begriffe künstliche Intelligenz (engl. artificial intelligence) und überwachtes machinelles Lernen (engl. supervised machine learning) oft gleichgestellt. Genaugenommen ist überwachtes maschinelles Lernen aus wissenschaftlicher Sicht aber nur ein viel kleineres Teilgebiet der künstlichen Intelligenz, da unter künstliche Intelligenz auch andere Forschungsbereiche wie Robotik und Computer-Vision gezählt werden.

In diesem Kurs werden Algorithmen und allgemeine Konzepte es überwachten maschinellen Lernens vorgestellt, die besonders für die Modellierung nicht-linearer Zusammenhänge für komplexe Klassifikations- und Regressionsprobleme geeignet sind. Die grundlegenden Prinzipien der vorgestellten Algorithmen und Konzepte werden für Anfänger verständlich erläutert, deren Funktionsweise illustriert und die Vor- und Nachteile diskutiert. Alle eingeführten Algorithmen und Themen werden anhand praktischer Beispiele und Anwendungsfälle veranschaulicht und mit Übungsaufgaben von Teilnehmern eingeübt.

Im Kurs kommt die Anwendung des R Erweiterungspaket mlr: Machine Learning in R zum Einsatz, welches auch vom Team der Essential Data Science Training GmbH seit Jahren mitentwickelt wird.

Der Kurs behandelt folgende Themen:

Begriffserklärung und Einführung in allgemeine Machine Learning Grundlagen.
Erläuterung der Funktionsweise von beliebten Algorithmen, z.B.: Klassifikations- und Regressionsbäume (CART), Random Forests und Gradient Boosting.
Aufteilung in Trainings- und Testdaten sowie Resampling-Prozeduren zur Modellevaluation (z.B. Kreuzvalidierung, Bootstrap).
Vergleich und Eigenschaften verschiedener Gütemaße um die Performance von Machine Learning Modellen zu evaluieren.
Einführung in die ROC Analyse für Klassifikationsmodelle, inkl. Hinweise für unausgewogene bzw. unbalancierte Daten (unterschiedliche Klassengröße).
Methoden für das Hyperparameter-Tuning um Lernalgorithmen optimal zu konfigurieren.
Modellselektion durch Nested Resampling um Overfitting und Overtuning zu vermeiden.
Methoden zur Variablenselektion (z.B. Feature filtering, Feature selection)

Folgende R-Pakete werden behandelt:

mlr (Machine Learning in R)
kknn, rpart, randomForest, ranger, gbm, xgboost

Voraussetzungen:

Kenntnisse in R (Im Umfang des 2-tägigen R Basiskurs bzw. 1-tägigen R Crashkurses)
Allgemeines Grundverständnis in der Datenanalyse / Statistik.

Giuseppe Casalicchio9. Februar 2020R, MLR