Streudiagramm

Ein Streudiagramm (Scatterplot) stellt Wertepaare \((x_i, y_i)\) als Punkte in einem Koordinatensystem dar. So erkennt man auf einen Blick, ob ein Zusammenhang besteht.

Mögliche Zusammenhänge:

  • Positiver Zusammenhang: Wenn x steigt, steigt auch y (Punkte von links unten nach rechts oben)
  • Negativer Zusammenhang: Wenn x steigt, sinkt y (Punkte von links oben nach rechts unten)
  • Kein Zusammenhang: Die Punkte zeigen kein erkennbares Muster

Korrelationskoeffizient

Der Korrelationskoeffizient nach Pearson \(r\) misst die Stärke und Richtung des linearen Zusammenhangs zwischen zwei Merkmalen.

Korrelationskoeffizient
\(r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}}\)

Es gilt stets: \(-1 \leq r \leq 1\)

Wert von \(r\)Interpretation
\(r = 1\)Perfekter positiver linearer Zusammenhang
\(0{,}7 \leq r < 1\)Starker positiver Zusammenhang
\(0{,}3 \leq r < 0{,}7\)Mittlerer positiver Zusammenhang
\(-0{,}3 < r < 0{,}3\)Schwacher oder kein linearer Zusammenhang
\(-1 < r \leq -0{,}7\)Starker negativer Zusammenhang
\(r = -1\)Perfekter negativer linearer Zusammenhang

Wichtig: Korrelation bedeutet nicht Kausalität! Zwei Merkmale können korrelieren, ohne dass eines das andere verursacht.

Lineare Regression

Die lineare Regression sucht die Gerade \(y = k \cdot x + d\), die am besten zu den Datenpunkten passt. Diese Gerade heißt Regressionsgerade.

Regressionsgerade \(y = k \cdot x + d\)
\(k = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} \qquad d = \bar{y} - k \cdot \bar{x}\)

Die Gerade geht immer durch den Schwerpunkt \((\bar{x}, \bar{y})\)

Methode der kleinsten Quadrate: Die Regressionsgerade minimiert die Summe der quadrierten Abweichungen der Datenpunkte von der Geraden:

\(\sum_{i=1}^{n} (y_i - (k \cdot x_i + d))^2 \to \min\)

Beispiel: Lernzeit und Punkte

Fünf Schüler:innen – Lernzeit (h) und Testpunkte:

Lernzeit \(x\)12345
Punkte \(y\)4781313
1
Mittelwerte: \(\bar{x} = 3\), \(\bar{y} = 9\)
2
\(\sum(x_i - \bar{x})(y_i - \bar{y}) = (-2)(-5) + (-1)(-2) + (0)(-1) + (1)(4) + (2)(4) = 10+2+0+4+8 = 24\)
3
\(\sum(x_i - \bar{x})^2 = 4 + 1 + 0 + 1 + 4 = 10\)
4
\(k = \frac{24}{10} = 2{,}4\) und \(d = 9 - 2{,}4 \cdot 3 = 1{,}8\)
5
Regressionsgerade: \(y = 2{,}4x + 1{,}8\)

Bestimmtheitsmaß

Das Bestimmtheitsmaß \(r^2\) gibt an, welcher Anteil der Streuung von \(y\) durch die Regression erklärt wird.

Bestimmtheitsmaß
\(r^2 = \frac{\text{erklärte Streuung}}{\text{Gesamtstreuung}}\)

Es gilt: \(0 \leq r^2 \leq 1\). Ein Wert nahe 1 bedeutet gute Anpassung.

Interpretation

Im Beispiel oben: \(\sum(y_i - \bar{y})^2 = 25+4+1+16+16 = 62\)

\(r = \frac{24}{\sqrt{10 \cdot 62}} = \frac{24}{\sqrt{620}} \approx 0{,}964\)

\(r^2 \approx 0{,}929\) → ca. 93 % der Streuung der Punkte werden durch die Lernzeit erklärt.

Übungen

Aufgabe 1Leicht

Ein Korrelationskoeffizient von \(r = -0{,}85\) bedeutet:

Aufgabe 2Leicht

Die Regressionsgerade geht immer durch welchen besonderen Punkt?

Aufgabe 3Mittel

Gegeben: \(\bar{x} = 5\), \(\bar{y} = 12\), Steigung \(k = 1{,}6\). Wie lautet die Regressionsgerade?

Aufgabe 4Mittel

Das Bestimmtheitsmaß beträgt \(r^2 = 0{,}81\). Wie groß ist \(|r|\)?

Aufgabe 5Schwer

Welche Aussage über Korrelation ist falsch?

🎯 Dein Ergebnis
0 / 5 richtig