Kapitel 17 Stichprobenfehler

Bei Stichproben, die zufällig gezogen werden, kommt es zu unterschiedlichen Resultaten

“It turns out that the standard error depends on four things: first, the design of the experiment; second, the type of analysis employed; third, the number of patients studied; and finally the variability of the raw data.

Senn, Stephen. Dicing with Death (Chance, Risk and Health) (p. 97). Cambridge University Press. Kindle Edition.

17.1 Stichprobenvariabilität / Stichprobenfehler / Sampling Error

Der englische Begriff *sampling error” trifft es eigentlich ganz gut: Wenn Stichproben zufällig gezogen werden (“random sampling”), so werden die Resultate in jeder Stichprobe etwas von den wahren Resultaten (d.h. den Resultaten in der Population) abweichen. Das nennt man den sampling error (oder Stichprobenfehler). Wie wir schon gelernt haben, wäre der Stichprobenfehler Null, wenn wir alle Werte der Population in die Stichprobe aufnehmen würden. Der Stichprobenfehler wird grösser, je kleiner die Stichprobe wird.

17.2 Beschreiben einer Stichprobe oder Schätzen eines Populationsparameters

  • Populationsparameter: Zum Beispiel Mittelwert der Population (σ), Standardabweichung der Population (σ), Korrelation zwischen zwei Variablen in der Population.

Wir müssen zuerst unterscheiden zwischen dem Beschreiben einer Datensammlung (siehe beschreibende Statistik) und dem Schliessen von dieser Datensammlung auf eine übergeordnete Grundgesamtheit (Population; siehe schliessende Statistik).

Beispiel: Wenn wir die durchschnittliche Grösse einer Klasse beschreiben, ist es etwas Anderes, als wenn wir diese durchschnittliche Grösse benutzen, um auf die durchschnittliche Grösse der Grundgesamtheit zu schliessen. Im zweiten Fall dient uns die Klasse nur als Stichprobe zur Schätzung des „wahren“ Populationsmittelwertes (siehe Tabelle Stichprobe versus Population). Immer dann, wenn wir nicht die gesamte Grundgesamtheit messen können, sondern eine Stichprobe auswählen und eine Grösse (Variable) dieser Stichprobe messen, haben wir mit dem Phänomen der Variabilität zu tun. Warum? Die durchschnittliche Grösse der Teilnehmerinnen in einer Stichprobe wird nicht gleich sein, wie die durchschnittliche Grösse der Teilnehmerinnen in einer neuen Stichprobe (Zusatzbemerkung: Idealerweise sollte eine Stichprobe zufällig aus der Grundgesamtheit gezogen werden und repräsentativ sein. Die Schwankungen – Variabilität – der Werte sollte also zufällig sein und nicht auf Verzerrungen (Bias genannt, z.B. nur Teilnehmer aus dem Appenzell) beruhen. Man nennt diese Schwankung deswegen auch zufällige Fehler oder Standardfehler des Mittelwertes). Die Statistik ist nun dazu da, diese Variabilität zu quantifizieren: Je grösser die Variabilität der Stichprobenmittelwerte, desto weniger Vertrauen haben wir in unsere Schätzung des Populationsmittelwertes. Je kleiner die Stichprobe, desto grösser wird die Variabilität der Stichprobenmittelwerte.

Wenn wir eine Hypothese testen, benötigen wir diese „Variabilität“ auch, um zu entscheiden, ob ein Resultat nur zufällig zustande gekommen ist, oder ob wir den „Zufall ausschliessen“ können. Die Variabilität wird benötigt, um das sogenannte Konfidenzintervall oder den P-Wert zu berechnen (doch dazu später).

  • Merke: Es gibt zwei Formen der Variabilität: 1) die Variabilität in einer Stichprobe und 2) die Variabilität der Stichprobenmittelwerte, wenn ich viele Stichproben nehmen würde.

17.3 Gibt es einen Zusammenhang zwischen Haarlänge und Gleichgewicht?

Stellen wir uns vor, wir würden bei allen Menschen die zwei Variablen “Haarlänge” und “Gleichgewicht” messen. Wir werden keinen Zusammenhang zwischen Haarlänge und Gleichgewicht finden. Simulieren wir einmal solche Daten.

    1. Wir generieren zufällig 10’000 Daten mit \(\mu\) 12 und \(\sigma\) 3. Das ist unsere Population.
Hairlength<-rnorm(10000, 12,3) # random sampling 
summary(Hairlength)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.03049  9.98103 11.97940 11.98263 13.99771 24.31305
Hairlength[Hairlength<0]<-0
summary(Hairlength)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   9.981  11.979  11.983  13.998  24.313
hist(Hairlength)

    1. Wir generieren zufällig 10’000 Daten zum Gleichgewicht (nehmen wir an, es sei der Berg Balance Test mit einem Score von 0 bis 56) Link zu einer Beschreibung des BBS mit einem Mittelwert von 53.
bbs_01<-(rbeta(10000,5,2)) # Da der BBS wahrscheinlich nicht normalverteilt ist, sondern eine rechts-steile (oder links-schiefe) Verteilung hat, müssen wir etwas tricksen 
BBS<-scales::rescale(bbs_01, to=c(0, 56), from=range(bbs_01, na.rm=TRUE, finite=TRUE)) # Wir haben eine Zeile weiter oben Zahlen zwischen 0 und 1 generiert, deswegen müssen wir diese nun auf den Score des BBS von 0 bis 56 umskalieren. 

# falls wir nicht das scales Packet benutzen möchten, könnten wir das auch manuell berechnen: 
bbs2<-(56-0)/(max(bbs_01-min(bbs_01))) * (bbs_01 -max(bbs_01)) + 56

hist(BBS, xlim=c(0,56))

hist(bbs2, xlim=c(0,56))

summary(BBS)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   31.96   39.65   38.44   46.12   56.00
summary(bbs2)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   31.96   39.65   38.44   46.12   56.00

Wir zeichnen nun ein Streudiagramm. Achtung: Wenn Sie selber ausführen, wird es einige Zeit dauern, da wir 10’000 Daten generiert haben. Wir sehen, dass es keinen Zusammenhang zwischen diesen beiden Variablen in der Population gibt.

library(ggplot2)
library(cowplot)
library(ggpubr) # brauchen wir nur, um den Korrelationskoeffizienten in die Graphik zu schreiben. 
ci<-psych::cor.ci(x=data.frame(BBS,Hairlength), method = "spearman", plot=FALSE)


ggplot(data=NULL, aes(x=Hairlength, y=BBS))+
  geom_point(colour="#DAAED9")+
  geom_smooth(method="lm")+
  theme_classic()+
  annotate(geom="text", x=20, y=50, label=paste0("Spearman's rho: ", round(ci$rho[2],4))  ,color="#B418DB")

17.4 Stichproben ziehen

Wir ziehen jetzt sechs Stichproben, die Korrelationen werden wir hier unten als Streudiagramme darstellen. Sie werden gleich sehen, wie gross die Unterschiede der Korrelationen zwischen den einzelnen Stichproben sein können.

Wir zeichnen sechs Streudiagramme, alle mit der Stichprobengrösse 10

Diese Graphiken sollen zeigen, dass es, vor allem bei kleinen Stichrpoben eine grosse Variabiltät in den Resultaten gibt.

Obschon die wahre Korrelation 0 ist - das heisst in der Population gibt es keinen Zusammenhang zwischen Haarlänge und Gleichgewicht - sehen wir hier ganz unterschiedliche Korrelationen. Dies ist die Stichprobenvariabilität, respektive der Sampling Error.

Streudiagramme mit Stichprobengrössen 10

Abbildung 17.1: Streudiagramme mit Stichprobengrössen 10

17.5 Simulation: Stichprobenziehen und Korrelation

Korrelation ändert sich, auch wenn die wahre Korrelation (d.h. die Korrelation in der Population) gleich bleibt.

Wir können uns das auch noch dynamisch anschauen.

Sie sehen hier unten 100 Stichproben in drei unterschiedlichen Stichprobengrössen. Links sehen Sie Stichprobengrössen von 5, in der Mitte ist die Stichprobengrösse jeweils 30, und rechts jeweils 300. Vergleichen Sie wie stark die Korrelationen, respektive die Regressionslinie ändern.

Fällt Ihnen auf, dass die Korrelation mit kleinen Stichprobengrössen viel mehr variiert als mit den grössenren Stichproben?

Wie im Kapitel über den Standardfehler des Mittelwertes wird auch hier die Statistik in den Stichproben mehr variieren, wenn die Stichprobe klein ist, und umso weniger, je grösser die Stichprobe ist.

Streudiagramme mit Stichprobengrösse 5, 30 und 300. Vergleichen Sie die Variabilität zwischen den Beispielen. Die wahre Korrelation ist 0 (d.h. in der Population ist die Korrelation zwischen Haarlänge und Gleichgewicht ist 0. Beachten Sie auch die p-Werte. Wenn wir unendlich viele Stichproben ziehen würden, wären 5% der p-Werte kleiner als 0.05 (dies gilt für alle drei Stichprobengrössen gleichermassen).

Abbildung 17.2: Streudiagramme mit Stichprobengrösse 5, 30 und 300. Vergleichen Sie die Variabilität zwischen den Beispielen. Die wahre Korrelation ist 0 (d.h. in der Population ist die Korrelation zwischen Haarlänge und Gleichgewicht ist 0. Beachten Sie auch die p-Werte. Wenn wir unendlich viele Stichproben ziehen würden, wären 5% der p-Werte kleiner als 0.05 (dies gilt für alle drei Stichprobengrössen gleichermassen).

Was beobachten wir, wenn wir genügend Geduld haben?

Je kleiner die Stichprobe, desto grösser die Variabilität.

Bei grösseren Stichproben variiert die Korrelation weniger und ist immer öfters nahe bei 0, was der “wahren” Korrelation, d.h. der Korrelation in der Population entspricht.

Wir sehen auf der Graphik, gleich neben der Korrelation (dem R), auch noch ein p-Wert. Ohne hier im Detail auf diesen p-Wert einzugehen, können wir sagen, dass dieser p-Wert die Wahrscheinlichkeit angibt, eine solche Korrelation oder eine extremere (d.h. weiter weg von 0) in einer zufälligen Stichprobe zu sehen, wenn in der Population die Korrelation 0 ist. Das heisst, wenn die wahre Korrelation 0 ist, werden wir häufiger eine Korrelation nahe von 0 sehen als eine die weiter weg von 0 ist. Beispiel: Wenn der p-Wert 0.05 ist, so ist die wahrscheinlichkeit 5%, dass wir eine solche Korrelation oder eine extremere sehen, wenn in Wahrheit (d.h. in der Population) die Korrelation 0 ist. In der Gesundheitsforschung gibt es eine Konvention, die sagt, dass wir nicht glauben, dass die wahre Korrelation 0 ist, wenn der p-Wert kleiner als 0.05 ist. Wir werden das später noch beim Thema Hypothesentesten anschauen.

In unserem Beispiel wissen wir, dass die wahre Korrelation 0 ist (da wir sie so generiert haben). Wenn wir jetzt unendlich viele Stichproben ziehen, werden 5% der Stichproben einen p-Wert von 0.05 oder kleiner aufweisen. Wir würden somit in 5% der Stichproben fälschlicherweise sagen, dass wir nicht glauben, dass die wahre Korrelation 0 ist.

Wir könnten auch eine weiter Übung machen: Wir könnten aus der Population der Gummibärchen mehrere Stichproben ziehen und davon die Proportionen der einzelnen Farben schätzen. Auch da würde nicht jede Stichprobe die gleichen Anteile der Farben aufweisen. Auch das ein Sampling Error. Doch meine Ernährungsberaterin hat mir von diesem Experiment abgeraten. Deshalb ist das Kapitel hier fertig.