Kapitel 4 Zentrale Tendenz

Menschliches Histogramm der Körpergrösse
In der Statistik möchten wir die Daten mit wenigen Kennzahlen zusammenfassen, ohne viel Information zu verlieren. Die Kennzahlen sollten ein gutes Bild über die Daten wiedergeben. Nehmen wir doch gleich das Beispiel der Körpergrösse: Wenn wir eine Menge von Personen haben, können wir nicht mehr jede einzelne Körpergrösse auflisten, das wäre zu unübersichtlich. Die erste Kennzahl, die wir meistens benutzen, ist eine Kennzahl für die zentrale Tendenz. Kennzahlen für die zentrale Tendenz werden oft auch Lagemasse genannt.
4.1 Der arithmetische Mittelwert
Wie gross sind die Personen im Durchschnitt. Wenn die Stichprobe keine extremen Werte (Ausreisser) aufweisst, können wir für die Körpergrösse das arithmetische Mittel (auch arithmetischer Mittelwert genannt) benutzen. Das Berechnen dieses Mittelwertes ist ganz einfach: Wir zählen alle Körpergrössen zusammen und teilen sie durch die Anzahl Personen.
\[\begin{equation} \overline{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} \tag{4.1} \end{equation}\]
Man kann die Formel auch mit dem Summenzeichen (grosses Sigma \(\Sigma\)) schreiben. Der Zähler mit dem Summenzeichen liest sich so: Zähle alle \(x\) von \(x_1\) bis \(x_n\) zusammen.
\[\begin{equation} \overline{x} = \frac{\sum_{i = 1}^{n} x_i}{n} \tag{4.2} \end{equation}\]
Oft sieht man die Formel des arithmetischen Mittelwertes so:
\[\begin{equation} \overline{x} = \frac{1}{n} \cdot \sum_{i = 1}^{n}x_i \tag{4.3} \end{equation}\]
Beispiel
Körpergrössen in der Stichprobe:
170, 180, 155, 174, 179
Summe: 170 + 180 + 155 + 174 + 179 = 858
Mittelwert = 858 / 5 = 171.6
Wir können das auch in R berechnen:
mean(c(170,180, 155, 174, 179))
## [1] 171.6
Achtung: Wenn wir fehlende Werte haben (NA), dann müssen wir R sagen, dass es diese NAs entfernt, sonst kann R nicht rechnen. So wird es nicht gehen:
mean(c(170,180, 155, NA,174, 179))
## [1] NA
Hier der korrekte Syntax mit dem Argument …., na.rm=TRUE. Wenn na.rm=TRUE gesetzt ist (anstelle der Standardeinstellung na.rm=FALSE), dann werden die NAs entfernt und R kann den Mittelwert rechnen:
mean(c(170,180, 155, NA,174, 179), na.rm=TRUE)
## [1] 171.6
Wann können wir den Mittelwert berechnen?
- Mindestens intervallskalierte Daten
- Symmetrisch verteilte Daten ohne Extremwerte
- In der Praxis rechnen wir oft auch den Mittelwert für ordinale Daten. Eigentlich sollten wir hier den Median berechnen.
4.2 Der Median
Nicht immer ist der arithmetische Mittelwert die beste Wahl. Machen wir noch ein zweites Beispiel: Wir möchten zusammenfassen, wie hoch der durchschnittliche Lohn in unserer Klasse ist. Wir haben hier 40 Studierende, die sehr wenig verdienen, und wir haben einen Lehrer, der viel mehr verdient. Das arithmetische Mittel ist nun nicht eine gute Kennzahl für die zentrale Tendenz, da der Mittelwert zu stark vom Lohn des Lehrers beeinflusst wird. Der arithmetische Mittelwert wäre weder für die Studierenden representativ, noch für den Lehrer. Die bessere Kennzahl für die zentrale Tendenz wäre hier der Median. Der Median ist die mittlere Zahl der geordneten Zahlen.
- Mittelwert des Lohns: Durschnittlicher Lohn
- Median des Lohns: Lohn der durchschnittlichen Person (die Hälfte der Personen verdient weniger, die Hälfte mehr als der Medianlohn)
Da wir in der Schweiz nicht über den Lohn reden, rechnen wir ein Beispiel mit der Körpergrösse.
Beispiel
Körpergrössen in der Stichprobe (der grösste Mensch war wirklich 272 cm gross):
170, 180, 155, 174, 272
Summe: 170 + 180 + 155 + 174 + 272 = 951
Mittelwert = 951 / 5 = 190.2
Wir sehen, dass die 190.2 kein guter, representativer Wert für die zentrale Tendenz ist.
Für die Berechnung des Medians ordnen wir die Zahlen der Grösse nach:
155, 170, 174, 180, 272
Die mittlere Zahl ist nun 174.
Hätten wir eine gerade Anzahl an Zahlen, gäbe es verschiedene Formeln. Bei der einfachsten nehmen wir einfach den Mittelwert der beiden mittleren Zahlen.
155, 160, 170, 174, 180, 272
Die beiden mittleren Zahlen wären hier 170 und 174, die Mitte dazwischen 172.
Berechnung in R:
<-sum(c(170,180, 155, 174, 272))
summe
cat(paste("Die Summe ist", summe))
## Die Summe ist 951
<-mean(c(170,180, 155, 174, 272))
Mittelwertcat(paste("Der arithmetische Mittelwert ist", Mittelwert))
## Der arithmetische Mittelwert ist 190.2
<-median(c(170,180, 155, 174, 272))
Median
cat(paste("Der Median ist", Median))
## Der Median ist 174
<-median(c(170, 160, 180, 155, 174, 272))
Median
cat(paste("Der Median im zweiten Beispiel mit sechs Zahlen ist", Median))
## Der Median im zweiten Beispiel mit sechs Zahlen ist 172
4.2.1 Beispiel Extremwerte und Einfluss auf Median / Mean
median(c(4,5,3,4,5,3,2,4))
## [1] 4
mean(c(4,5,3,4,5,3,2,4))
## [1] 3.75
Jetzt fügen wir einen Extremwert 1000 an und sehen, dass der Mittelwert (mean) stark beeinflusst wird, der Median jedoch kaum.
median(c(4,5,3,4,5,3,2,4,1000))
## [1] 4
mean(c(4,5,3,4,5,3,2,4,1000))
## [1] 114.4444
Beim Median zählt der Extremwert einfach als 1 Wert, und sein Wert spielt eigentlich gar keine Rolle. Beim nächsten Beispiel fügen wir anstatt 1000 einmal *1’000’000 ein und schauen was passiert.
median(c(4,5,3,4,5,3,2,4,1000000))
## [1] 4
mean(c(4,5,3,4,5,3,2,4,1000000))
## [1] 111114.4
Noch ein Beispiel, jetzt fügen wir anstelle von 1’000’000 200 ein:
median(c(4,5,3,4,5,3,2,4,200))
## [1] 4
mean(c(4,5,3,4,5,3,2,4,200))
## [1] 25.55556
Jetzt sehen Sie, dass der Mittlwert (mean) stark beeinflusst wird und der Median nicht.
=1:50
idset.seed(12345)
=rnorm(50, 178, 12)
cm
50]<-272
cm[49]<-270
cm[48]<-269
cm[
<-data.frame(id, cm)
datasummary(cm)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 149.4 172.9 184.1 185.7 190.9 272.0
library(ggplot2)
ggplot(data, aes(x=cm))+
geom_histogram(fill="orange")+
geom_vline(xintercept=Median, colour="#F56511", linetype="dashed", size=1.5)+
geom_vline(xintercept=Mittelwert, colour="#3A3BFA", linetype="dashed", size=1.5)+
theme_classic()+
scale_x_continuous(breaks=seq(100,300, 10))+
annotate(geom="text", x=198, y=6, label="Mittelwert")+
annotate(geom="text", x=169, y=5, label="Median")+
xlab(label="Körpergrösse in cm")+
labs(title="Histogramm der Körpergrössen von 50 Personen")

Abbildung 4.1: Histogramm mit Mittelwert und Median. Der Mittelwert ist immer näher beim extremen Wert als der Median. Der Mittelwert wird durch die extremen Werte mehr beeinflusst als der Median.

Abbildung 4.2: Median
Wann macht es Sinn, den Median zu berechnen?
- Mindestens ordinal skalierte Daten.
- Bei intervallskalierten Daten ist der Median robuster für schiefe Verteilungen und extreme Werte.
Besondere Situtation
Es gibt Situationen, in denen trotz Extremwerte der arithmethische Mittelwert trotzdem die bessere Wahl ist. Stellen Sie sich vor, sie müssten in einem Skilager für eine Klasse von 20 Personen kochen. 19 Personen essen je 100 Gramm Spaghetti, eine Person ist 200 Gramm. Wenn sie nun den Median nehmen um die Menge zu planen, werden sie danach zu wenig gekocht haben. Hier ist der Mittelwert die bessere Wahl.
= 1:20
Person =c((rep(100,times=19 )), 200)
Essverhalten<-data.frame(Person, Essverhalten)
data::datatable(data) DT
<-median(data$Essverhalten)
Median<-mean(data$Essverhalten) Mittelwert
Berechnete Menge mit dem Median: 20 x 100 Gramm = 2000 Gramm, dies ergibt pro Person: 100 Gramm, was zu wenig wäre. Wenn nun 19 Personen 100 aus dem Topf nehmen würden, bliebe für die 20. Person nur noch 100 Gramm übrig.
Berechnete Menge mit dem Mittelwert: 20 x 105 = 2100, dies ergibt pro Person: 105, was genug wäre. Wenn 19 Personen 100 Gramm aus dem Topf nehmen (1900), so bliebe noch 200 Gramm und somit wäre auch die 20. Person zufrieden.

Abbildung 4.3: Der Mittelwert ist immer näher beim extremen Wert als der Median
4.3 Der Modus
Der Modus ist der häufigste Wert in den Daten. In der Datenmenge 2,4,1,5,9,1,3,6,1 wäre der Modus 1, da die 1 am häufigsten vorkommt. Die Berner Gielä mögen die Statistik sehr gerne, weil sie hier zwei oder mehr Modi haben können. (Fragt einen Berner, was damit gemeint ist). In der folgenden Datenmenge gibt es zwei Modi: 1,1,3,5,6,8,8, nämlich 1 und 8.
In der Abbildung 3.4 sehen wir eine bimodale Verteilung. Die Verteilung hat zwei Spitzen. Das muss jedoch nicht bedeuten, dass es auch zwei Modi gibt. Warum nicht? Da beim Histogramm die Balken eine Gruppierung von Zahlen darstellen, kann es trotzdem sein, dass es nur einen Modus gibt, obschon die Verteilung im Histogramm bimodal ist.

Abbildung 4.4: Histogramm einer bimodalen Verteilung, d.h. einer Verteilung mit zwei Häufigkeitsspitzen. Diese Verteilung muss jedoch nicht zwingend zwei Modi haben, da die Balken beim Histogramm einen Bereich von Zahlen abdecken und nicht eine einzelne Zahl. In diesem Beispiel hier gibt es nur einen Modus.
## [1] 39.1
In der Abbildung 3.5 sehen wir ein Balkendiagramm einer nominalen Variable. Hier gibt es zwei Modi, nämlich Velo und Zug.
<-rep(c("Auto","Velo", "Velo", "Trottinett","Zug", "Zug", "Bus"), each=20)
Verkehrsmittel<-table(Verkehrsmittel)
countsbarplot(counts)

Abbildung 4.5: Balkendiagramm (Barplot) der Häufigkeit der benutzten Verkehrsmittel. Hier haben wir zwei Modi: Velo und Zug.
modes(Verkehrsmittel)
## [1] "Velo" "Zug"
library(dplyr)
library(ggplot2)
library(cowplot)
library(ggpmisc)
library(NHSRdatasets)
4.4 Harmonisches Mittel
Das harmonische Mittel kommt dann zum Zuge, wenn wir Raten haben, das heisst immer dann, wenn wir eine Zahl pro einer Einheit haben, wie zum Beispiel der Geschwindigkeit (10 Kilometer pro Stunde) oder Inzidenzraten (10 Stürze pro 100 Personentage).
Bei der Geschwindigkeit benötigen wir das harmonische Mittel, wenn die Geschwindigkeiten (die wir mitteln wollen) über die gleiche Distanz gemessen wurden.
\[\begin{equation} \frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+...+\frac{1}{x_n}} \tag{4.4} \end{equation}\]
4.4.1 Beispiel Gehgeschwindigket
Wir messen bei einem Patienten die Gehgeschwindigkeit über 10 Meter. Wir tun dies nun drei Mal.
Beim ersten Mal benötigt er 14.3 Sekunden. Seine Gehgeschwindigkeit ist somit: 1/14.3*10 oder anders ausgedrückt 10/14.3 = gerundet 0.7 Meter pro Sekunde.
Beim zweiten Durchgang benötigt er 13 Sekunden. Seine Gehgeschwindigkeit ist somit 0.77 Meter pro Sekunde.
Im dritten Durchgang benötigt er 12 Sekunden. Die Gehgeschwindigkeit beträgt 0.83 Meter pro Sekunde.
Wenn wir jetzt das arithmetische Mittel berechnen würden, ergäbe dies:
mean(c(0.6993007, 0.7692308,0.8333333))
## [1] 0.7672883
Also 0.77 Meter pro Sekunde.
Wir könnten jetzt die Gehgeschwindigkeit über die drei Mal 10 Meter auch anders berechnen: Einfach die Zeit der drei Strecken zusammenzählen und 30 durch diese Zeit teilen.
<-14.3+13+12
Zeit
<-30/Zeit
Gehschwindigkeit_m_pro_Sekunde
Gehschwindigkeit_m_pro_Sekunde
## [1] 0.7633588
Wir erhalten so 0.76 Meter pro Sekunde. Unsere Berechnung mit dem arithmetischen Mittel ist somit falsch.
- Wenn wir über mehrere Geschwindigkeiten einen Durschnitt berechnen wollen, und die Geschwindigkeiten über gleich lange Strecken gemessen wurden, dürfen wir nicht das arithmetische Mittel benutzen (wenn Geschwindigkeiten über die selbe Zeit gemittelt werden würden, ginge dies)
Wir sollten das harmonische Mittel berechnen.
3/(1/0.6993007 + 1/0.7692308 + 1/ 0.8333333)
## [1] 0.7633588
Wir sehen nun, dass wir mit dem harmonischen Mittel genau die gleiche Geschwindigkeit erhalten, wie wenn wir die Zeiten der drei Strecken addieren und so die Geschwindigkeit berechnen. Das beweisst, dass das harmonische Mittel die korrekte Wahl ist.
Alternativ könnten wir aber auch einen gewichteten Mittelwert berechnen. Wir müssten für die benötigte Zeit gewichten.
- für die erste Strecke wäre das Gewicht die 14.3 Sekunden, wir multiplizieren also diese Zeit mal die Gehgeschwindigkeit (14.3*0.6993007)
- für die zweite Strecke: 13*0.7692308
- für die dritte Strecke: 12*0.8333333
Nun können wir diese drei Zahlen zusammenzählen und einfach durch die addierten Gewichte (d.h. die addierten Zeiten) teilen.
<-14.3*0.6993007
first<-13*0.7692308
second<-12*0.8333333
third
<- (first + second + third) / (14.3+13+12)
gewichteter_Mittelwert gewichteter_Mittelwert
## [1] 0.7633588
Wir sehen, das der gewichtete Mittelwert das gleiche Ergebnis wie das harmonische Mittel ergibt.
Wie sieht es nun aus, wenn wir Geschwindigkeiten Mitteln, die über eine gleiche Zeit gelaufen wurden?
4.4.2 Beispiel Gehgeschwindigkeit über 6 Minuten
In der Rehabilitation wird oft der 6-Minuten Gehtest durchgeführt. Wir haben dies mit einem Patienten auch wieder drei Mal gemacht und möchten nun die durchschnittliche Geschwindigkeit berechnen.
- Durchgang 1: 252 Meter, Geschwindigkeit = 0.7 Meter pro Sekunde
- Durchgang 2: 288 Meter, Gehgeschwindigkeit = 0.8 Meter pro Sekunde
- Durchgang 3: 234 Meter, Gehgeschwindigkeit = 0.65 Meter pro Sekunde
Wenn wir nun das arithmetische Mittel der drei Geschwindigkeiten nehmen, erhalten wir 0.72 Meter pro Sekunde:
mean(c(0.7,0.8,0.65))
## [1] 0.7166667
Das harmonische Mittel wäre 0.71 Meter pro Sekunde:
3/(1/0.7 + 1/0.8 + 1/0.65)
## [1] 0.7114007
Wenn wir die Strecken zusammenzählen und so die Gehgeschwindigkeit berechnen, erhalten wir:
1/(3*360)*(252+288+234)
## [1] 0.7166667
Wir sehen also, dass mit diesem Beispiel das arithmetische Mittel korrekt ist.
Sie finden dazu auch ein Video hier:
4.5 Geometrisches Mittel
Das geometrische Mittel wird nicht mit der Summe aller Werte berechnet, sondern mit dem Produkt aller Werte. Vom Produkt aller Werte wird die n-te Wurzel genommen.
\[\begin{equation} \sqrt[4]{x_1 \cdot x_2 \cdot x_3 \cdot x_4} \tag{4.5} \end{equation}\] d.h.
\[\begin{equation} \sqrt[4]{ 2 \cdot 4 \cdot 8 \cdot 16} = 5.657 \tag{4.6} \end{equation}\]
Wir können auch zuerst alle Werte logarithmieren, den normalen Mittelwert davon nehmen und das Resultat exponenzieren.
exp(mean(log(c(2,4,8,16))))
## [1] 5.656854
Im Gesundheitsbereich wird das geometrische Mittel unter anderem dann berechnet, wenn Daten keine linearen Zunahme zeigen. Dies ist zum Beispiel bei Antikörper-Titer der Fall. Ordnet man diese Werte der Grösse nach ein, sieht man einen nichtliniearen Anstieg. Wir können das mit der nächsten Abbildung illustrieren.
= rnorm(100,50,4)
Werte_A <-data.frame(Werte_A) %>%
dataarrange(Werte_A) %>%
mutate(id=row_number())
<-ggplot(data, aes(x=id, y=Werte_A))+
Ageom_point() +
theme_classic()
<-ggplot(data, aes(x=Werte_A))+
A_densitygeom_density() +
theme_classic()+
geom_vline(aes(xintercept=mean(Werte_A, na.rm=TRUE)), color="red", size=1)+
geom_vline(aes(xintercept=median(Werte_A, na.rm=TRUE)), color="purple", size=1)+
geom_vline(aes(xintercept=exp(mean(log(Werte_A), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")
<-1:100
id= 2^(id*0.05)
Werte_B
<-data.frame(id, Werte_B) %>%
dataarrange(Werte_B) %>%
mutate(id=row_number())
<-ggplot(data, aes(x=id, y=Werte_B))+
Bgeom_point()+
theme_classic()
<-ggplot(data, aes(x=Werte_B))+
B_densitygeom_density()+
theme_classic()+
geom_vline(aes(xintercept=mean(Werte_B, na.rm=TRUE)), color="red", size=1)+
geom_vline(aes(xintercept=median(Werte_B, na.rm=TRUE)), color="purple", size=1)+
geom_vline(aes(xintercept=exp(mean(log(Werte_B), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")
= rnorm(80, 50,4)
Werte_C =rnorm(20,150,3)
C_outliers
=c(Werte_C, C_outliers)
Werte_C
<-data.frame(Werte_C) %>%
dataarrange(Werte_C) %>%
mutate(id=row_number())
<-ggplot(data, aes(x=id, y=Werte_C))+
Cgeom_point()+
theme_classic()
<-ggplot(data, aes(x=Werte_C))+
C_densitygeom_density()+
theme_classic()+
geom_vline(aes(xintercept=mean(Werte_C, na.rm=TRUE)), color="red", size=1)+
geom_vline(aes(xintercept=median(Werte_C, na.rm=TRUE)), color="purple", size=1)+
geom_vline(aes(xintercept=exp(mean(log(Werte_C), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")+
labs(x="Spitalaufenthalt (Tage)")
plot_grid(A, B, C, A_density, B_density,C_density, labels = c('A', 'B', 'C', 'D','E','F'))

Abbildung 4.6: A) Daten aus einer Normalverteilung. Die Werte steigen linear (zumindest im mittleren Bereich). B) Datenreihe, die Werte steigen exponentiel, d.h. der vorherige Werte wird immer mit einer Konstante multipliziert. C) Daten mit Ausreisser. D) Dichtegraphik der Werte in Abbildung A, E) Dichteplot der Werte in Abbildung B., F) Dichteplot der Werte in Abbildung C. Die roten Linien zeigen die arithmetischen Mittel, die violetten Linien die Mediane. Die goldgelben gestrichelten Linien zeigen die geometrischen Mittel.
Wir sehen bei diesen drei Datenformen, dass das geometrische Mittel bei normalverteilten Daten gleich ist, wie der Median. Dies ist auch der Fall, wenn die Daten einem multiplikativen Muster folgen, jedoch ist es nicht der Fall, wenn es Ausreisser gibt. Das geometrische Mittel ist zwar gegen Ausreisser nach gegen oben robuster als das arithmetische Mittel. Bei Ausreisser gegen unten ist dies jedoch nicht mehr der Fall.
<- rnorm(80,50,4)
Werte_A <- rnorm(20,5,0.3)
Ausreisser_A <-c(Werte_A, Ausreisser_A)
Werte_A
<-data.frame(Werte_A) %>%
dataarrange(Werte_A) %>%
mutate(id=row_number())
<-ggplot(data, aes(x=id, y=Werte_A))+
Ageom_point() +
theme_classic()
<-ggplot(data, aes(x=Werte_A))+
A_densitygeom_density() +
theme_classic()+
geom_vline(aes(xintercept=mean(Werte_A, na.rm=TRUE)), color="red", size=1)+
geom_vline(aes(xintercept=median(Werte_A, na.rm=TRUE)), color="purple", size=1)+
geom_vline(aes(xintercept=exp(mean(log(Werte_A), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")
<-1:100
id= rnorm(100, 10,14)
Werte_B
<-data.frame(id, Werte_B) %>%
dataarrange(Werte_B) %>%
mutate(id=row_number())
<-ggplot(data, aes(x=id, y=Werte_B))+
Bgeom_point()+
theme_classic()
<-ggplot(data, aes(x=Werte_B))+
B_densitygeom_density()+
theme_classic()+
geom_vline(aes(xintercept=mean(Werte_B, na.rm=TRUE)), color="red", size=1)+
geom_vline(aes(xintercept=median(Werte_B, na.rm=TRUE)), color="purple", size=1,linetype = "dashed")
+ geom_vline(aes(xintercept=exp(mean(log(Werte_B), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed") # Das geometrische Mittel kann mit 0 und negativen Zahlen nicht berechnet werden, deswegen fehlt hier der goldgelbe Strich. B_density
## Warning in log(Werte_B): NaNs produced
data("LOS_model")
= LOS_model$LOS
Werte_C =c(Werte_C, C_outliers)
Werte_C
<-data.frame(Werte_C) %>%
dataarrange(Werte_C) %>%
mutate(id=row_number())
<-ggplot(data, aes(x=id, y=Werte_C))+
Cgeom_point()+
theme_classic()
<-ggplot(data, aes(x=Werte_C))+
C_densitygeom_density()+
theme_classic()+
geom_vline(aes(xintercept=mean(Werte_C, na.rm=TRUE)), color="red", size=1)+
geom_vline(aes(xintercept=median(Werte_C, na.rm=TRUE)), color="purple", size=1)+
geom_vline(aes(xintercept=exp(mean(log(Werte_C), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")
plot_grid(A, B, C, A_density, B_density,C_density, labels = c('A', 'B', 'C', 'D','E','F'))

Abbildung 4.7: A) Daten mit Ausreisser nach unten. Wir sehen, dass das geometrische Mittel (goldgelber Strich) stark von den Ausreissern beeinflusst wird. B) Hier haben wir die Werte 0 und negative Zahlen; deswegen soll das geometrische Mittel nicht berechnet werden (wenn 0 in einer Multiplikationsreihe ist…) C) Daten für die Hospitalisierungsdauer. D) Dichtegraphik der Werte in Abbildung A, E) Dichteplot der Werte in Abbildung B., F) Dichteplot der Werte in Abbildung C. Die roten Linien zeigen die arithmetischen Mittel, die violetten Linien die Mediane. Die goldgelben gestrichelten Linien zeigen die geometrischen Mittel.
Die Daten der Abbildung C sind simulierte Spitalaufenthaltsdaten (hier klicken).
4.6 Beispiel aus der wissenschaftlichen Literatur: Antigen-Titer
Wir benutzen Daten aus einem im Plos Medicine veröffentlichten Artikel Gils et al. (2022).
<-rio::import("https://doi.org/10.1371/journal.pmed.1003991.s009", format="xlsx", range="A4:C58")
data<-janitor::clean_names(data)
data=="ND"]<-NA
data[datanames(data)
## [1] "participant_id" "wt_2" "wt_3"
<-data %>%
datamutate(across(c(wt_2,wt_3), as.numeric)) %>%
arrange(wt_3)
ggplot(data, aes(y=wt_3, x=1:length(wt_3)))+
geom_point()+
theme_classic()+
labs(x="Jeder Punkt ist eine Beobachtung, Werte der Grösse nach geordnet", y="Antikörper-Titer (BAU/ml)")
## Warning: Removed 8 rows containing missing values (`geom_point()`).

Abbildung 1.12: Für diese Graphik haben wir die Werte nach Grösse geordnet. Wir sehen, dass die Zunahme über die Ränge nicht linear ist. BAU= binding antibody units.
ggplot(data, aes(x=wt_3))+
geom_density()+
geom_vline(aes(xintercept=mean(wt_3, na.rm=TRUE)), color="red", size=2)+
geom_vline(aes(xintercept=median(wt_3, na.rm=TRUE)), color="purple", size=2)+
geom_vline(aes(xintercept=exp(mean(log(wt_3), na.rm=TRUE))), color="gold", alpha=0.9,size=2, linetype = "dashed")+
theme_classic()
## Warning: Removed 8 rows containing non-finite values (`stat_density()`).

Abbildung 1.13: Density Plot der Daten. Der rote Strich zeigt das arithmetische Mittel, der violette Strich den Median. Der goldgelbe gestrichelte Strich zeigt das geometrische Mittel. Das geometrische Mittel ist jedoch nicht immer gleich wie der Median - dies ist nur der Fall, wenn die geordneten Werte multiplikativ zunehmen. Siehe auch Reverberi (2008)
4.7 Quiz zur zentralen Tendenz
Abbildung 4.8: Quiz Zentrale Tendenz (da ist noch ein Fehler - es ist nich das korrekte Quiz - aber der Autor dieser Seite steht noch auf dem Schlauch…
4.8 Referenzen

Achtung Ausreisser.