Streudiagramm
Ein Streudiagramm (Scatterplot) stellt Wertepaare \((x_i, y_i)\) als Punkte in einem Koordinatensystem dar. So erkennt man auf einen Blick, ob ein Zusammenhang besteht.
Mögliche Zusammenhänge:
- Positiver Zusammenhang: Wenn x steigt, steigt auch y (Punkte von links unten nach rechts oben)
- Negativer Zusammenhang: Wenn x steigt, sinkt y (Punkte von links oben nach rechts unten)
- Kein Zusammenhang: Die Punkte zeigen kein erkennbares Muster
Korrelationskoeffizient
Der Korrelationskoeffizient nach Pearson \(r\) misst die Stärke und Richtung des linearen Zusammenhangs zwischen zwei Merkmalen.
Es gilt stets: \(-1 \leq r \leq 1\)
| Wert von \(r\) | Interpretation |
|---|---|
| \(r = 1\) | Perfekter positiver linearer Zusammenhang |
| \(0{,}7 \leq r < 1\) | Starker positiver Zusammenhang |
| \(0{,}3 \leq r < 0{,}7\) | Mittlerer positiver Zusammenhang |
| \(-0{,}3 < r < 0{,}3\) | Schwacher oder kein linearer Zusammenhang |
| \(-1 < r \leq -0{,}7\) | Starker negativer Zusammenhang |
| \(r = -1\) | Perfekter negativer linearer Zusammenhang |
Wichtig: Korrelation bedeutet nicht Kausalität! Zwei Merkmale können korrelieren, ohne dass eines das andere verursacht.
Lineare Regression
Die lineare Regression sucht die Gerade \(y = k \cdot x + d\), die am besten zu den Datenpunkten passt. Diese Gerade heißt Regressionsgerade.
Die Gerade geht immer durch den Schwerpunkt \((\bar{x}, \bar{y})\)
Methode der kleinsten Quadrate: Die Regressionsgerade minimiert die Summe der quadrierten Abweichungen der Datenpunkte von der Geraden:
\(\sum_{i=1}^{n} (y_i - (k \cdot x_i + d))^2 \to \min\)
Fünf Schüler:innen – Lernzeit (h) und Testpunkte:
| Lernzeit \(x\) | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| Punkte \(y\) | 4 | 7 | 8 | 13 | 13 |
Bestimmtheitsmaß
Das Bestimmtheitsmaß \(r^2\) gibt an, welcher Anteil der Streuung von \(y\) durch die Regression erklärt wird.
Es gilt: \(0 \leq r^2 \leq 1\). Ein Wert nahe 1 bedeutet gute Anpassung.
Im Beispiel oben: \(\sum(y_i - \bar{y})^2 = 25+4+1+16+16 = 62\)
\(r = \frac{24}{\sqrt{10 \cdot 62}} = \frac{24}{\sqrt{620}} \approx 0{,}964\)
\(r^2 \approx 0{,}929\) → ca. 93 % der Streuung der Punkte werden durch die Lernzeit erklärt.
Übungen
Ein Korrelationskoeffizient von \(r = -0{,}85\) bedeutet:
Die Regressionsgerade geht immer durch welchen besonderen Punkt?
Gegeben: \(\bar{x} = 5\), \(\bar{y} = 12\), Steigung \(k = 1{,}6\). Wie lautet die Regressionsgerade?
Das Bestimmtheitsmaß beträgt \(r^2 = 0{,}81\). Wie groß ist \(|r|\)?
Welche Aussage über Korrelation ist falsch?