Efficient Data Processing mit R

 


Datenmanipulation und Verarbeitung  kann oft eine der zeitaufwändigsten Tätigkeiten in einer statistischen Analyse sein.
In diesem Kurs werden Fähigkeiten vermittelt um effizient auch mit größeren Datenmengen in R arbeiten zu können. Dazu gehört unter anderem:

 

  • Split-Apply-Combine Strategien
  • Bessere Datentypen um mit großen Datensätzen umgehen zu können (data.tables)
  • Schnelles und intuitives streamlinen von Vorverarbeitungsschritten (dplyr)
  • Anbindung von Datenbanken an R

 

Split-Apply-Combine beschreibt den Allgemeinen Vorgang, einen Datensatz in kleine Teildatensätze zu zerteilen, auf jedem Teildatensatz Operationen auszuführen und die Ergebnisse dann wieder zusammenzufügen. Ein sehr einfaches Beispiel für Split-Apply-Combine Strategien sind gruppierte Mittelwerte und weitere statistische Kennzahlen.

Im weiteren sollen Techniken gezeigt werden um größere Datensätze schnell in R einzulesen und diese effizient zu speichern. Dabei wird data.table als Speicherobjekt genutzt. Dies erlaubt Transformationen am Datensatz über call by references durchzuführen, damit wenig bis gar kein zusätzlicher Speicherplatz benötigt wird.

Wenn viele  Datenvorverarbeitungsschritte nacheinander durchgeführt werden, wird Programmcode schnell unübersichtlich. Zusätzlich werden oftmals viele unnötige Zwischenschritte  explizit abgespeichert, was zusätzlichen Speicher kosten kann. Mit sog. chaining Operatoren kann Code zur Vorverarbeitung von Analysen wesentlich effizienter und übersichtlicher dargestellt werden.

Als letztes Thema wird auf die Verbindung von Datenbanken mit R eingegangen. Nachdem in R Daten immer im Hauptspeicher liegen, kann es sehr langsam werden mit großen Datensätzen zu arbeiten. Mithilfe von Datenbanken können die Daten auf der Festplatte oder in der Cloud gelagert werden und nur die Daten, die R in einem Schritt tatsächlich benötigt, werden dann in den Arbeitspeicher geladen.

 

Nach dem Kurs sollen Teilnehmer in der Lage sein effizient auch mit größeren Datenmengen in R arbeiten zu können, sowie Datenvorverarbeitung klarer, einfacher und schneller durchführen zu können.


Voraussetzungen:

Praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Anfängerkurses)

 

Hinweise:

Im Kurspreis bereits enthalten sind zwei Mittagessen, Kaffeepausen, Getränke und Kursunterlagen.

Jeder Teilnehmer, jede Teilnehmerin erhält ein Teilnahmezertifikat mit LMU Siegel.

Ein Teil unserer Kurse findet in den Räumlichkeiten der LMU-Weiterbildung in der Leopoldstrasse 30 statt. Für diese Kurse bitten wir Sie, einen eigenen Laptop mit einer möglichst aktuellen Version der kostenlosen Software R (https://cran.r-project.org) und RStudio (https://www.rstudio.com/products/rstudio/download/) mitzubringen. Wenn Sie keine Administrationsrechte auf Ihrem Laptop haben (oft bei Firmenlaptops der Fall), sollten Sie zusätzlich sicherstellen, dass in R auch Erweiterungspakete auf Ihrem Laptop installiert werden können. Genaueres entnehmen Sie bitte der Kursanmeldungsseite. Gerne können Sie uns bei Fragen hierzu auch kontaktieren.

Einen Internetzugang werden wir über das BayernWLAN für alle Teilnehmer bereitstellen.