Lernhilfen

from Imgflip Meme Generator

2.1 Ihr Lernerfolg

2.1.1 Was Sie hier lernen und wozu das gut ist

Alle Welt spricht von Big Data, aber ohne die Analyse sind die großen Daten nur großes Rauschen. Was letztlich interessiert, sind die Erkenntnisse, die Einblicke, nicht die Daten an sich. Dabei ist es egal, ob die Daten groß oder klein sind. Natürlich erlauben die heutigen Datenmengen im Verbund mit leistungsfähigen Rechnern und neuen Analysemethoden ein Verständnis, das vor Kurzem noch nicht möglich war. Und wir stehen erst am Anfang dieser Entwicklung. Vielleicht handelt es sich bei diesem Feld um eines der dynamischsten Fachgebiete der heutigen Zeit. Sie sind dabei: Sie lernen einiges Handwerkszeugs des “Datenwissenschaftlers”. Wir konzentrieren uns auf das vielleicht bekannteste Teilgebiet: Ereignisse vorhersagen auf Basis von hoch strukturierten Daten und geeigneter Algorithmen und Verfahren. Nach diesem Kurs sollten Sie in der Lage sein, typisches Gebabbel des Fachgebiet mit Lässigkeit mitzumachen. Ach ja, und mit einigem Erfolg Vorhersagemodelle entwickeln.

2.1.2 Lernziele

Wichtig

Kurz gesagt: Sie lernen die Grundlagen von Data Science.\(\square\)

Nach diesem Kurs sollten Sie

  • grundlegende Konzepte des statistischen Lernens verstehen und mit R anwenden können
  • gängige Prognose-Algorithmen kennen, in Grundzügen verstehen und mit R anwenden können
  • die Güte und Grenze von Prognosemodellen einschätzen können

2.1.3 Überblick

Abb. Abbildung 2.1 gibt einen Überblick über den Verlauf und die Inhalte des Buches. Das Diagramm hilft Ihnen zu verorten, wo welches Thema im Gesamtzusammenhang steht.

flowchart LR
  subgraph R[Rahmen]
    direction LR
    subgraph V[Grundlagen]
      direction TB
      E[R] --- Um[Statistisches<br>Lernen]
      Um --- tm[tidymodels]
    end
    subgraph M[Lernalgorithmen]
      direction TB
      M1[Regression] --- Vis[Baeume]
      Vis --- U[Regularisierung]
      U --- G[...]
    end
    subgraph N[Anwendung]
      direction TB
      D[Fallstudien]
    end
  V --> M
  M --> N
  end

Abbildung 2.1: Ein ‘Fahrplan’ als ‘Big Picture’ dieses Buches

2.1.4 Modulzeitplan

Nr Thema Datum Kommentar
1 Statistisches Lernen 13.3. - 19.3. Lehrbeginn ist am Mi., 15.3.23
2 Statistisches Lernen 20.3. - 26.3. NA
3 R, zweiter Blick 27.3. - 2.4. NA
4 R, zweiter Blick 3.4. - 9.4 Karwoche (kein Unterricht am Do. und Fr.)
5 tidymodels 10.4. - 16.4. Osterwoche (kein Unterricht am Mo. und Di.)
6 knn 17.4. - 23.4. NA
7 Resampling und Tuning 24.4. - 30.4. NA
8 Logistische Regression 1.5. - 7.5. Maifeiertag (kein Unterricht am Mo.)
9 Entscheidungsbäume 8.5. - 14.5. NA
10 Baumbasierte Modelle 15.5. - 21.5. NA
11 - 22.5. - 28.5. Blockwocke - kein regulärer Unterricht
12 Regularisierung 29.6. - 4.6. Pfingstwoche (kein Unterricht am Mo. und Di.)
13 Regularisierung 5.6. - 11.6. Fronleichnam (kein Unterricht am Do. und Fr.)
14 Fallstudien bei Kaggle 12.6. - 18.6. NA
15 Dimensionsreduktion 19.6. - 25.6. NA
16 Der rote Faden 26.6. - 2.7. Letzter Lehrtag ist Fr., 30.6.

2.1.5 Voraussetzungen

Um von diesem Kurs am besten zu profitieren, sollten Sie folgendes Wissen mitbringen:

  • grundlegende Kenntnisse im Umgang mit R, möglichst auch mit dem tidyverse
  • grundlegende Kenntnisse der deskriptiven Statistik
  • grundlegende Kenntnis der Regressionsanalyse

2.2 Lernhilfen

2.2.1 PDF-Version

Um eine PDF-Version eines Kapitels zu erhalten, können Sie im Browser die Druckfunktion nutzen (Strg-P). Wählen Sie dort “PDF” als Ziel.

2.2.2 Videos

Auf dem YouTube-Kanal des Autors finden sich eine Reihe von Videos mit Bezug zum Inhalt dieses Buchs. Besonders diese Playlist passt zu den Inhalten dieses Buchs.

2.2.3 Software

Installieren Sie R und seine Freunde. Für die Bayes-Inferenz brauchen Sie1 zusätzliche Software, was leider etwas Zusatzaufwand erfordert. Lesen Sie hier die Hinweise dazu. Installieren Sie die folgende R-Pakete2:

  • tidyverse
  • easystats
  • weitere Pakete werden im Unterricht bekannt gegeben (es schadet aber nichts, jetzt schon Pakete nach eigenem Ermessen zu installieren)

R Syntax aus dem Unterricht findet sich im Github-Repo bzw. Ordner zum jeweiligen Semester.

2.2.4 Online-Unterstützung

Dieser Kurs kann in Präsenz und Online angeboten werden. Wenn Sie die Wahl haben, empfehle ich die Teilnahme in Präsenz, da der Lernerfolg höher ist. Online ist es meist schwieriger, sich zu konzentrieren. Aber auch online ist es möglich, den Stoff gut zu lernen, s. Abbildung 2.2.

Abbildung 2.2: We believe in you! Image Credit: Allison Horst

Bitte beachten Sie, dass bei einer Teilnahme in Präsenz eine aktive Mitarbeit erwartet wird. Hingegen ist bei einer Online-Teilnahme keine/kaum aktive Mitarbeit möglich.

Hier finden Sie einige Werkzeuge, die das Online-Zusammenarbeiten vereinfachen:

  • Frag-Jetzt-Raum zum anonymen Fragen stellen während des Unterrichts. Der Keycode wird Ihnen bei Bedarf vom Dozenten bereitgestellt.
  • Padlet zum einfachen (und anonymen) Hochladen von Arbeitsergebnissen der Studentis im Unterricht. Wir nutzen es als eine Art Pinwand zum Sammeln von Arbeitsbeiträgen. Die Zugangsdaten stellt Ihnen der Dozent bereit.
  • Nutzen Sie das vom Dozenten bereitgestelle Forum, um Fragen zu stellen und Fragen zu beantworten.

2.2.5 Lerntipps

Hinweis

Stetige Mitarbeit - auch und gerade außerhalb des Unterrichts - ist der Schlüssel zum Prüfungserfolg.

  • Lerngruppe: Treten Sie einer Lerngruppe bei.
  • Tutorium: Besuchen Sie ein Tutorium, falls eines angeboten wird.
  • Vor- und Nachbereitung: Bereiten Sie den Unterricht vor und nach.
  • Selbsttest: Testen Sie sich mit Flashcards (Karteikarten mit Vor- und Rückseite). Wenn Sie alle Aufgaben dieses Kurses aus dem FF beherrschen, sollte die Prüfung kein Problem sein.
  • Übungen: Bearbeiten Sie alle Übungsaufgaben gewissenhaft.
  • Portal Datenwerk: Gehen Sie die Aufgaben auf dem Portal Datenwerk durch (soweit relevant).
  • Fallstudien: Schauen Sie sich meine Fallstudiensammlungen an: https://sebastiansauer-academic.netlify.app/courseware/casestudies/
  • Lehrkraft ansprechen: Sprechen Sie die Lehrkraft an, wenn Sie Fragen haben. Haben Sie keine Scheu! Bitte lesen Sie aber vorab die Hinweise, um Redundanz zu vermeiden.

2.2.6 Selbstlernkontrolle

Für jedes Kapitel sind (am Kapitelende) Aufgaben eingestellt, jeweils mit Lösung. Ein Teil dieser Aufgaben hat eine kurze, eindeutige Lösung (z.B. “42” oder “Antwort C”); ein (kleiner) Teil der Aufgaben verlangen komplexere Antworten (z.B. “Welche Arten von Prioris gibt es bei stan_glm()?). Nutzen Sie die Fragen mit eindeutiger, kurzer Lösung um sich selber zu prüfen. Nutzen Sie die Fragen mit komplexerer, längerer Lösung, um ein Themengebiet tiefer zu erarbeiten.

Hinweis

Fortwährendes Feedback zu Ihrem Lernfortschritt ist wichtig, damit Sie Ihre Lernbemühungen steuern können. Bearbeiten Sie daher die bereitgestellten Arbeiten ernsthaft.

2.2.7 Lernen lernen

Hier sind einige Quellen (Literatur), die Ihnen helfen sollen, das Lernen (noch besser) zu lernen:

2.3 Literatur

Zentrale Kursliteratur für die theoretischen Konzepte ist Rhys (2020). Bitte prüfen Sie, ob das Buch in einer Bibliothek verfügbar ist. Die praktische Umsetzung in R basiert auf Silge und Kuhn (2022) (dem “Tidymodels-Konzept”); das Buch ist frei online verfügbar.

Eine gute Ergänzung ist das Lehrbuch von Timbers, Campbell, und Lee (2022), welches grundlegende Data-Science-Konzepte erläutert und mit tidymodels umsetzt.

James u. a. (2021) haben ein weithin renommiertes und sehr bekanntes Buch verfasst. Es ist allerdings etwas anspruchsvoller aus Rhys (2020), daher steht es nicht im Fokus dieses Kurses, aber einige Schwenker zu Inhalten von James u. a. (2021) gibt es. Schauen Sie mal rein, das Buch ist gut!

In einigen Punkten ist weiterhin Sauer (2019) hilfreich; das Buch ist über SpringerLink in Ihrer Hochschul-Bibliothek verfügbar. Eine gute Ergänzung ist das “Lab-Buch” von Hvitfeldt (2022). In dem Buch wird das Lehrbuch James u. a. (2021) in Tidymodels-Konzepte übersetzt; durchaus nett!

2.4 FAQ

  • Folien
    • Frage: Gibt es ein Folienskript?
    • Antwort: Wo es einfache, gute Literatur gibt, gibt es kein Skript. Wo es keine gute oder keine einfach zugängliche Literatur gibt, dort gibt es ein Skript.
  • Englisch
    • Ist die Literatur auf Englisch?
    • Ja. Allerdings ist die Literatur gut zugänglich. Das Englisch ist nicht schwer. Bedenken Sie: Englisch ist die lingua franca in Wissenschaft und Wirtschaft. Ein solides Verständnis englischer (geschriebener) Sprache ist für eine gute Ausbildung unerlässlich. Zu dem sollte die Kursliteratur fachlich passende und gute Bücher umfassen; oft sind das englische Titel.
  • Anstrengend
    • Ist der Kurs sehr anstrengend, aufwändig?
    • Der Kurs hat ein mittleres Anspruchsniveau.
  • Mathe
    • Muss man ein Mathe-Crack sein, um eine gute Note zu erreichen?
    • Nein. Mathe steht nicht im Vordergrund. Schauen Sie sich die Literatur an, sie werden wenig Mathe darin finden.
  • Prüfungsliteratur
    • Welche Literatur ist prüfungsrelevant?
    • Prüfungsrelevant im engeren Sinne ist das Skript sowie alles, was im Unterricht behandelt wurde.
  • Prüfung
    • Wie sieht die Prüfung aus?
    • Die Prüfung ist angewandt, z.B. ein Prognosewettbewerb. Es wird keine Klausur geben, in der reines Wissen abgefragt wird.
  • Nur R?
    • Wird nur R in dem Kurs gelehrt? Andere Programmiersprachen sind doch auch wichtig.
    • In der Datenanalyse gibt es zwei zentrale Programmiersprachen, R und Python. Beide sind gut und beide werden viel verwendet. In einer Grundausbildung sollte man sich auf eine Sprache begrenzen, da sonst den Sprachen zu viel Zeit eingeräumt werden muss. Wichtiger als eine zweite Programmiersprache zu lernen, mit der man nicht viel mehr kann als mit der ersten, ist es, die Inhalte des Fachs zu lernen.

  1. nicht gleich zu Beginn, aber nach 2-3 Wochen↩︎

  2. falls Sie die Pakete schon installiert haben, könnten Sie mal in RStudio auf “update.packages” klicken↩︎