Kapitel 15 Population und Stichprobe

Population (Grundgesamtheit) und Stichprobe (Sample)

Wenn wir Daten analysieren, handelt es sich fast immer um Daten einer Stichprobe und nicht um die kompletten Daten der gesamten Population (der Grundgesamtheit). Im Idealfall ist die Stichprobe repräsentativ für die Population, zum Beispiel erstellt mit einem zufälligen Stichprobenziehen (sampling). Abbildung 9.1 zeigt eine Übersicht über die verschiedenen Sampling-Techniken.

Physiotherapeutische Studien sind in den allermeisten Fällen keine Zufallsstichproben, sondern sogenannte Convenience-Samples, auf Deutsch Gelegenheitsstichproben.

Methoden der Stichprobenziehung (sampling).

Abbildung 15.1: Methoden der Stichprobenziehung (sampling).

Wenn wir aus einer Population von Zwergen zufällig Zwerge auswählen, so wird - vorausgesetzt das wir eine genügend grosse Stichprobe ziehen (doch dazu später) - die Stichprobe repräsentativ für die Population sein. Das heisst, das zum Beispiel ein Mittelwert der Stichprobe eine gute Schätzung des Populationsparameters “Mittelwert der Population” sein. Übrigens: für die Populationsparameter benutzen wir griechische Buchstaben, wir würden also nicht Populationsmittelwert sagen, sondern μ (Ausgesprochen: “Mi”).

Population und Stichprobe

Abbildung 15.2: Population und Stichprobe

Hier ein Beispiel einer nicht-repräsentativen Stichprobe, hier wäre der Mittelwert der Stichprobe keine gute Schätzung von μ .

Diese Stichprobe ist nicht repräsentativ.

Abbildung 15.3: Diese Stichprobe ist nicht repräsentativ.

Wir können entweder die Stichprobe beschreiben (beschreibende Statistik), oder wir können von der Stichprobe auf die Population schliessen (schliessende Statistik). Grob vereinfacht können wir sagen, dass wir bei der schliessenden Statistik zwei Probleme haben: die Stichprobe könnte nicht repräsentativ sein, oder die Stichprobe könnte zu klein sein, so dass die Schätzung nicht präzise genug ist. Dazu mehr im nächsten Kapitel.

Kreislauf: Stichprobe aus der Population ziehen, analysieren, von der Stichprobe auf die Population Rückschlüsse ziehen.

Abbildung 15.4: Kreislauf: Stichprobe aus der Population ziehen, analysieren, von der Stichprobe auf die Population Rückschlüsse ziehen.

15.1 Stichprobenziehen in R

Wir können in R sehr einfach Stichproben erstellen.

Erstellen wir eine Population mit 1’000’000 Werten. Die Werte in der Population sind normal verteilt mit einem Mittelwert (in der Population, nicht in der Stichprobe) von 178 und einer Standardabweichung in der Population von 12.

population<-rnorm(1000000, 178, 12)
hist(population, col="gold")
text(140, 50000, paste("mean: ",round(mean(population))))

Eine kleine Denkaufgabe:

Wir führen jetzt einen neuen Begriff ein: den Standardfehler.

Wir machen gedanklich folgendes:

  • Wir ziehen unendlich viele Stichproben mit der gleichen Stichprobengrösse.
  • Die gezogenen Zahlen legen wir nach jedem Ziehen einer Stichprobe wieder zurück, so dass jede Zahl in mehreren Stichproben vorkommen kann.
  • Wir berechnen für jede Stichprobe den Mittelwert.
  • Nun berechnen wir die Standardabweichung aller Mittelwerte.
  • Diese Standardabweichung aller Stichprobenmittelwerte nennen wir Standardfehler.

In der Realität haben wir nie unendlich viele Stichproben, sondern meistens nur eine. Da können wir den Standardfehler nicht berechnen. Wir können ihn jedoch schätzen mit der Formel: \(\frac{sd}{\sqrt(n)}\)

Sie werden jetzt sicher fragen, warum wir von schätzen reden, wenn wir doch eine exakte Formel anwenden? Der Grund ist, dass wir eigentlich die Formel so schreiben sollten:

\(\frac{\sigma}{\sqrt(n)}\)

Was da der Unterschied ist, fragen sie? Können Sie sich erinnern? Wir haben gesagt, dass wir für die Populationsparameter griechische Buchstaben benutzen. Wenn wir jetzt hier ein \(\sigma\) benutzen, heisst dies, dass wir die Standardabweichung der Population in die Formel einfügen müssten. Da wir aber nur die Standardabweichung der Stichprobe haben, bleibt dies eine Schätzung.

15.1.1 Visualisierung des Einflusses der Stichprobengrösse auf den Standardfehler.

Diese Übung soll uns zeigen, wie sich die Stichprobengrösse auf den Standardfehler (Standard Error of the Mean) auswirkt.

Sie sehen hier unten drei Histogramme mit unterschiedlichen Stichprobengrössen: 5 im linken Histogramm, 15 im mittleren und 300 im rechten Histogramm.

Der Mittelwert der Population ist mit dem violetten Strich markiert. Die Stichprobenmittelwerte (d.h. die Mittelwerte jeder Stichprobe) sind mit einem roten Strich markiert.

Die animierten Bilder zeigen wechselnde Stichproben, so sehen Sie, dass bei kleinerer Stichprobengrösse die Mittelwerte stärker variieren als bei grösseren Stichproben.

## [1] 169.9811
## [1] 12.0003
Die Population

Abbildung 15.5: Die Population

15.2 Simulation: Einfluss der unterschiedlichen Stichprobengrössen auf die Variabilität der Stichprobenmittelwerte

Wir ziehen hier Stichproben mit n = 5 (links), 15 (Mitte), 300 (rechts). Wir beobachten, dass die Mittelwerte (roter Strich) dieser Stichproben stark variieren. Der violette Strich gibt den Populationsmittelwert an (d.h, das, was wir als “wahren” Mittelwert bezeichnen). Histogramme der Population und von 5 Stichproben mit der Stichprobengrösse 5.

Abbildung 15.6: Histogramme der Population und von 5 Stichproben mit der Stichprobengrösse 5.

15.3 Verteilung der Stichprobenmittelwerte

Wir können jetzt auch Histogramme der Stichprobenmittelwerte darstellen. In der Abbildung 2.5 sehen wir Histogramme für je 100 Stichproben, jedes Histogramm für eine andere Stichprobengrösse.

Wir sehen, dass die Mittelwerte der Stichproben umso mehr variieren, je kleiner die Stichprobengrösse ist.

Histogramme der Stichprobenmittlewerte

Abbildung 4.1: Histogramme der Stichprobenmittlewerte

Verlgeiche die Standardabweichungen der Stichprobenmittelwerte der unterschiedlichen Stichprobengrössen.

Diese Standardabweichungen der Stichprobenmittelwerte nennen wir Standardfehler (oder Standardfehler des Mittelwertes; oder Standard Error of the Mean). Daraus berechnen wir später die Konfidenzintervalle oder die p-Werte.

sd(Mittelwerte_der_Stichproben_Sample_Size5)
## [1] 9.306156
sd(Mittelwerte_der_Stichproben_Sample_Size30)
## [1] 3.437228
sd(Mittelwerte_der_Stichproben_Sample_Size60)
## [1] 2.592521
sd(Mittelwerte_der_Stichproben_Sample_Size100)
## [1] 1.834513

Sie sollten jetzt verstehen, warum die Standardabweichung der Stichprobenmittelwerte beim nächsten Beispiel 0 ist. Sie sollten jetzt wissen, dass wir diese Standardabweichung der Stichprobenmittelwerte Standardfehler oder Standard Error of the Mean nennen.

sd(Mittelwerte_der_Stichproben_Sample_Size1000000)
## [1] 0

Wenn wir aufgrund unserer Stichprobe eine Aussage über die Grundgesamtheit (Population) machen wollen, so müssen wir den Standardfehler (“Standard Error of the Mean”) berücksichtigen.

Zwischenbemerkung: Wir gehen hier davon aus, dass die Stichprobe repräsentativ und zufällig gezogen wurde. Was ist nun der Standardfehler (“Standard Error of the Mean”)

Später, wenn wir eine Studie durchführen, haben wir nur eine Stichprobe; deswegen können wir den Standardfehler nicht direkt berechnen (siehe Abschnitt Standarfehler weiter oben), sondern müssen ihn mit der Formel \(\frac{sd}{\sqrt{n}}\) schätzen. Daraus berechnen wir später das Konfidenzintervall. Das Konfidenzintervall brauchen wir, um die Unsicherheit (oder auch: die statistische Präzision) zu quantifizieren, aber dazu später mehr.

Je kleiner (schmäler) das Konfidenzintervall, desto kleiner die Unsicherheit, desto grösser die statistische Präzision.

15.4 Unterschiedliche Buchstaben für Mittelwert der Stichprobe, Punktschätzer und Populationsmittelwert

Für jede Statistik, wie zum Beispiel den Mittelwert, benutzen wir unterschiedliche Schreibweisen, je nachdem was wir meinen. Berechnen wir den Mittelwert einer Stichprobe für di e Beschreibung der Stichprobe, so benutzen wir normale Buchstaben. Benutzen wir den Mittelwert der Stichprobe für den Mittelwert der Population zu schätzen, setzen wir ein kleines Dach oder einen Hut darüber (auf englisch nennen wir dass dann mean hat). Den Populationsmittelwert bezeichnen wir mit dem griechischen Buchstaben \mu, übrigens nicht Mü ausgesprochen, sondern Mi.

Alle laufen davon, wahrscheinlich ist das Kapitel zu Ende.

  • Leider funktionieren in diesem Kapitel die Navigationspfeile für den Übergang zum nächsten Kapitel nicht. Sie können aber auf der Tastatur den Pfeil nach rechts klicken, um zum nächsten Kapitel zu gelangen.