Kapitel 4 Zentrale Tendenz

Menschliches Histogramm der Körpergrösse

In der Statistik möchten wir die Daten mit wenigen Kennzahlen zusammenfassen, ohne viel Information zu verlieren. Die Kennzahlen sollten ein gutes Bild über die Daten wiedergeben. Nehmen wir doch gleich das Beispiel der Körpergrösse: Wenn wir eine Menge von Personen haben, können wir nicht mehr jede einzelne Körpergrösse auflisten, das wäre zu unübersichtlich. Die erste Kennzahl, die wir meistens benutzen, ist eine Kennzahl für die zentrale Tendenz. Kennzahlen für die zentrale Tendenz werden oft auch Lagemasse genannt.

4.1 Der arithmetische Mittelwert

Wie gross sind die Personen im Durchschnitt. Wenn die Stichprobe keine extremen Werte (Ausreisser) aufweisst, können wir für die Körpergrösse das arithmetische Mittel (auch arithmetischer Mittelwert genannt) benutzen. Das Berechnen dieses Mittelwertes ist ganz einfach: Wir zählen alle Körpergrössen zusammen und teilen sie durch die Anzahl Personen.

\[\begin{equation} \overline{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} \tag{4.1} \end{equation}\]

Man kann die Formel auch mit dem Summenzeichen (grosses Sigma \(\Sigma\)) schreiben. Der Zähler mit dem Summenzeichen liest sich so: Zähle alle \(x\) von \(x_1\) bis \(x_n\) zusammen.

\[\begin{equation} \overline{x} = \frac{\sum_{i = 1}^{n} x_i}{n} \tag{4.2} \end{equation}\]

Oft sieht man die Formel des arithmetischen Mittelwertes so:

\[\begin{equation} \overline{x} = \frac{1}{n} \cdot \sum_{i = 1}^{n}x_i \tag{4.3} \end{equation}\]

Beispiel

Körpergrössen in der Stichprobe:

170, 180, 155, 174, 179

Summe: 170 + 180 + 155 + 174 + 179 = 858

Mittelwert = 858 / 5 = 171.6

Wir können das auch in R berechnen:

mean(c(170,180, 155, 174, 179))

## [1] 171.6

Achtung: Wenn wir fehlende Werte haben (NA), dann müssen wir R sagen, dass es diese NAs entfernt, sonst kann R nicht rechnen. So wird es nicht gehen:

mean(c(170,180, 155, NA,174, 179))

## [1] NA

Hier der korrekte Syntax mit dem Argument …., na.rm=TRUE. Wenn na.rm=TRUE gesetzt ist (anstelle der Standardeinstellung na.rm=FALSE), dann werden die NAs entfernt und R kann den Mittelwert rechnen:

mean(c(170,180, 155, NA,174, 179), na.rm=TRUE)

## [1] 171.6

Wann können wir den Mittelwert berechnen?

Mindestens intervallskalierte Daten
Symmetrisch verteilte Daten ohne Extremwerte
In der Praxis rechnen wir oft auch den Mittelwert für ordinale Daten. Eigentlich sollten wir hier den Median berechnen.

4.2 Der Median

Nicht immer ist der arithmetische Mittelwert die beste Wahl. Machen wir noch ein zweites Beispiel: Wir möchten zusammenfassen, wie hoch der durchschnittliche Lohn in unserer Klasse ist. Wir haben hier 40 Studierende, die sehr wenig verdienen, und wir haben einen Lehrer, der viel mehr verdient. Das arithmetische Mittel ist nun nicht eine gute Kennzahl für die zentrale Tendenz, da der Mittelwert zu stark vom Lohn des Lehrers beeinflusst wird. Der arithmetische Mittelwert wäre weder für die Studierenden representativ, noch für den Lehrer. Die bessere Kennzahl für die zentrale Tendenz wäre hier der Median. Der Median ist die mittlere Zahl der geordneten Zahlen.

Mittelwert des Lohns: Durschnittlicher Lohn
Median des Lohns: Lohn der durchschnittlichen Person (die Hälfte der Personen verdient weniger, die Hälfte mehr als der Medianlohn)

Da wir in der Schweiz nicht über den Lohn reden, rechnen wir ein Beispiel mit der Körpergrösse.

Beispiel

Körpergrössen in der Stichprobe (der grösste Mensch war wirklich 272 cm gross):

170, 180, 155, 174, 272

Summe: 170 + 180 + 155 + 174 + 272 = 951

Mittelwert = 951 / 5 = 190.2

Wir sehen, dass die 190.2 kein guter, representativer Wert für die zentrale Tendenz ist.

Für die Berechnung des Medians ordnen wir die Zahlen der Grösse nach:

155, 170, 174, 180, 272

Die mittlere Zahl ist nun 174.

Hätten wir eine gerade Anzahl an Zahlen, gäbe es verschiedene Formeln. Bei der einfachsten nehmen wir einfach den Mittelwert der beiden mittleren Zahlen.

155, 160, 170, 174, 180, 272

Die beiden mittleren Zahlen wären hier 170 und 174, die Mitte dazwischen 172.

Berechnung in R:

summe<-sum(c(170,180, 155, 174, 272))

cat(paste("Die Summe ist", summe))

## Die Summe ist 951

Mittelwert<-mean(c(170,180, 155, 174, 272))
cat(paste("Der arithmetische Mittelwert ist", Mittelwert))

## Der arithmetische Mittelwert ist 190.2

Median<-median(c(170,180, 155, 174, 272))

cat(paste("Der Median ist", Median))

## Der Median ist 174

Median<-median(c(170, 160, 180, 155, 174, 272))

cat(paste("Der Median im zweiten Beispiel mit sechs Zahlen ist", Median))

## Der Median im zweiten Beispiel mit sechs Zahlen ist 172

4.2.1 Beispiel Extremwerte und Einfluss auf Median / Mean

median(c(4,5,3,4,5,3,2,4))

## [1] 4

mean(c(4,5,3,4,5,3,2,4))

## [1] 3.75

Jetzt fügen wir einen Extremwert 1000 an und sehen, dass der Mittelwert (mean) stark beeinflusst wird, der Median jedoch kaum.

median(c(4,5,3,4,5,3,2,4,1000))

## [1] 4

mean(c(4,5,3,4,5,3,2,4,1000))

## [1] 114.4444

Beim Median zählt der Extremwert einfach als 1 Wert, und sein Wert spielt eigentlich gar keine Rolle. Beim nächsten Beispiel fügen wir anstatt 1000 einmal *1’000’000 ein und schauen was passiert.

median(c(4,5,3,4,5,3,2,4,1000000))

## [1] 4

mean(c(4,5,3,4,5,3,2,4,1000000))

## [1] 111114.4

Noch ein Beispiel, jetzt fügen wir anstelle von 1’000’000 200 ein:

median(c(4,5,3,4,5,3,2,4,200))

## [1] 4

mean(c(4,5,3,4,5,3,2,4,200))

## [1] 25.55556

Jetzt sehen Sie, dass der Mittlwert (mean) stark beeinflusst wird und der Median nicht.

id=1:50
set.seed(12345)
cm=rnorm(50, 178, 12)

cm[50]<-272
cm[49]<-270
cm[48]<-269

data<-data.frame(id, cm)
summary(cm)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   149.4   172.9   184.1   185.7   190.9   272.0

library(ggplot2)
ggplot(data, aes(x=cm))+
  geom_histogram(fill="orange")+
  geom_vline(xintercept=Median, colour="#F56511", linetype="dashed", size=1.5)+
  geom_vline(xintercept=Mittelwert, colour="#3A3BFA", linetype="dashed", size=1.5)+
  theme_classic()+
  scale_x_continuous(breaks=seq(100,300, 10))+
  annotate(geom="text", x=198, y=6, label="Mittelwert")+
  annotate(geom="text", x=169, y=5, label="Median")+
  xlab(label="Körpergrösse in cm")+
  labs(title="Histogramm der Körpergrössen von 50 Personen")

Histogramm mit Mittelwert und Median. Der Mittelwert ist immer näher beim extremen Wert als der Median. Der Mittelwert wird durch die extremen Werte mehr beeinflusst als der Median.

Abbildung 4.1: Histogramm mit Mittelwert und Median. Der Mittelwert ist immer näher beim extremen Wert als der Median. Der Mittelwert wird durch die extremen Werte mehr beeinflusst als der Median.

Abbildung 4.2: Median

Wann macht es Sinn, den Median zu berechnen?

Mindestens ordinal skalierte Daten.
Bei intervallskalierten Daten ist der Median robuster für schiefe Verteilungen und extreme Werte.

Besondere Situtation

Es gibt Situationen, in denen trotz Extremwerte der arithmethische Mittelwert trotzdem die bessere Wahl ist. Stellen Sie sich vor, sie müssten in einem Skilager für eine Klasse von 20 Personen kochen. 19 Personen essen je 100 Gramm Spaghetti, eine Person ist 200 Gramm. Wenn sie nun den Median nehmen um die Menge zu planen, werden sie danach zu wenig gekocht haben. Hier ist der Mittelwert die bessere Wahl.

Person = 1:20
Essverhalten=c((rep(100,times=19 )), 200) 
data<-data.frame(Person, Essverhalten)
DT::datatable(data)

Median<-median(data$Essverhalten)
Mittelwert<-mean(data$Essverhalten)

Berechnete Menge mit dem Median: 20 x 100 Gramm = 2000 Gramm, dies ergibt pro Person: 100 Gramm, was zu wenig wäre. Wenn nun 19 Personen 100 aus dem Topf nehmen würden, bliebe für die 20. Person nur noch 100 Gramm übrig.

Berechnete Menge mit dem Mittelwert: 20 x 105 = 2100, dies ergibt pro Person: 105, was genug wäre. Wenn 19 Personen 100 Gramm aus dem Topf nehmen (1900), so bliebe noch 200 Gramm und somit wäre auch die 20. Person zufrieden.

Abbildung 4.3: Der Mittelwert ist immer näher beim extremen Wert als der Median

4.3 Der Modus

Der Modus ist der häufigste Wert in den Daten. In der Datenmenge 2,4,1,5,9,1,3,6,1 wäre der Modus 1, da die 1 am häufigsten vorkommt. Die Berner Gielä mögen die Statistik sehr gerne, weil sie hier zwei oder mehr Modi haben können. (Fragt einen Berner, was damit gemeint ist). In der folgenden Datenmenge gibt es zwei Modi: 1,1,3,5,6,8,8, nämlich 1 und 8.

In der Abbildung 3.4 sehen wir eine bimodale Verteilung. Die Verteilung hat zwei Spitzen. Das muss jedoch nicht bedeuten, dass es auch zwei Modi gibt. Warum nicht? Da beim Histogramm die Balken eine Gruppierung von Zahlen darstellen, kann es trotzdem sein, dass es nur einen Modus gibt, obschon die Verteilung im Histogramm bimodal ist.

Histogramm einer bimodalen Verteilung, d.h. einer Verteilung mit zwei Häufigkeitsspitzen. Diese Verteilung muss jedoch nicht zwingend zwei Modi haben, da die Balken beim Histogramm einen Bereich von Zahlen abdecken und nicht eine einzelne Zahl. In diesem Beispiel hier gibt es nur einen Modus.

Abbildung 4.4: Histogramm einer bimodalen Verteilung, d.h. einer Verteilung mit zwei Häufigkeitsspitzen. Diese Verteilung muss jedoch nicht zwingend zwei Modi haben, da die Balken beim Histogramm einen Bereich von Zahlen abdecken und nicht eine einzelne Zahl. In diesem Beispiel hier gibt es nur einen Modus.

## [1] 39.1

In der Abbildung 3.5 sehen wir ein Balkendiagramm einer nominalen Variable. Hier gibt es zwei Modi, nämlich Velo und Zug.

Verkehrsmittel<-rep(c("Auto","Velo", "Velo", "Trottinett","Zug", "Zug", "Bus"), each=20)
counts<-table(Verkehrsmittel)
barplot(counts)

Abbildung 4.5: Balkendiagramm (Barplot) der Häufigkeit der benutzten Verkehrsmittel. Hier haben wir zwei Modi: Velo und Zug.

modes(Verkehrsmittel)

## [1] "Velo" "Zug"

library(dplyr)
library(ggplot2)
library(cowplot)
library(ggpmisc)
library(NHSRdatasets)

4.4 Harmonisches Mittel

Das harmonische Mittel kommt dann zum Zuge, wenn wir Raten haben, das heisst immer dann, wenn wir eine Zahl pro einer Einheit haben, wie zum Beispiel der Geschwindigkeit (10 Kilometer pro Stunde) oder Inzidenzraten (10 Stürze pro 100 Personentage).

Bei der Geschwindigkeit benötigen wir das harmonische Mittel, wenn die Geschwindigkeiten (die wir mitteln wollen) über die gleiche Distanz gemessen wurden.

\[\begin{equation} \frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+...+\frac{1}{x_n}} \tag{4.4} \end{equation}\]

4.4.1 Beispiel Gehgeschwindigket

Wir messen bei einem Patienten die Gehgeschwindigkeit über 10 Meter. Wir tun dies nun drei Mal.

Beim ersten Mal benötigt er 14.3 Sekunden. Seine Gehgeschwindigkeit ist somit: 1/14.3*10 oder anders ausgedrückt 10/14.3 = gerundet 0.7 Meter pro Sekunde.

Beim zweiten Durchgang benötigt er 13 Sekunden. Seine Gehgeschwindigkeit ist somit 0.77 Meter pro Sekunde.

Im dritten Durchgang benötigt er 12 Sekunden. Die Gehgeschwindigkeit beträgt 0.83 Meter pro Sekunde.

Wenn wir jetzt das arithmetische Mittel berechnen würden, ergäbe dies:

mean(c(0.6993007, 0.7692308,0.8333333))

## [1] 0.7672883

Also 0.77 Meter pro Sekunde.

Wir könnten jetzt die Gehgeschwindigkeit über die drei Mal 10 Meter auch anders berechnen: Einfach die Zeit der drei Strecken zusammenzählen und 30 durch diese Zeit teilen.

Zeit<-14.3+13+12

Gehschwindigkeit_m_pro_Sekunde <-30/Zeit

Gehschwindigkeit_m_pro_Sekunde

## [1] 0.7633588

Wir erhalten so 0.76 Meter pro Sekunde. Unsere Berechnung mit dem arithmetischen Mittel ist somit falsch.

Wenn wir über mehrere Geschwindigkeiten einen Durschnitt berechnen wollen, und die Geschwindigkeiten über gleich lange Strecken gemessen wurden, dürfen wir nicht das arithmetische Mittel benutzen (wenn Geschwindigkeiten über die selbe Zeit gemittelt werden würden, ginge dies)

Wir sollten das harmonische Mittel berechnen.

3/(1/0.6993007 + 1/0.7692308 + 1/ 0.8333333)

## [1] 0.7633588

Wir sehen nun, dass wir mit dem harmonischen Mittel genau die gleiche Geschwindigkeit erhalten, wie wenn wir die Zeiten der drei Strecken addieren und so die Geschwindigkeit berechnen. Das beweisst, dass das harmonische Mittel die korrekte Wahl ist.

Alternativ könnten wir aber auch einen gewichteten Mittelwert berechnen. Wir müssten für die benötigte Zeit gewichten.

für die erste Strecke wäre das Gewicht die 14.3 Sekunden, wir multiplizieren also diese Zeit mal die Gehgeschwindigkeit (14.3*0.6993007)
für die zweite Strecke: 13*0.7692308
für die dritte Strecke: 12*0.8333333

Nun können wir diese drei Zahlen zusammenzählen und einfach durch die addierten Gewichte (d.h. die addierten Zeiten) teilen.

first<-14.3*0.6993007
second<-13*0.7692308
third<-12*0.8333333

gewichteter_Mittelwert <- (first + second + third) / (14.3+13+12)
gewichteter_Mittelwert

## [1] 0.7633588

Wir sehen, das der gewichtete Mittelwert das gleiche Ergebnis wie das harmonische Mittel ergibt.

Wie sieht es nun aus, wenn wir Geschwindigkeiten Mitteln, die über eine gleiche Zeit gelaufen wurden?

4.4.2 Beispiel Gehgeschwindigkeit über 6 Minuten

In der Rehabilitation wird oft der 6-Minuten Gehtest durchgeführt. Wir haben dies mit einem Patienten auch wieder drei Mal gemacht und möchten nun die durchschnittliche Geschwindigkeit berechnen.

Durchgang 1: 252 Meter, Geschwindigkeit = 0.7 Meter pro Sekunde
Durchgang 2: 288 Meter, Gehgeschwindigkeit = 0.8 Meter pro Sekunde
Durchgang 3: 234 Meter, Gehgeschwindigkeit = 0.65 Meter pro Sekunde

Wenn wir nun das arithmetische Mittel der drei Geschwindigkeiten nehmen, erhalten wir 0.72 Meter pro Sekunde:

mean(c(0.7,0.8,0.65))

## [1] 0.7166667

Das harmonische Mittel wäre 0.71 Meter pro Sekunde:

3/(1/0.7 + 1/0.8 + 1/0.65)

## [1] 0.7114007

Wenn wir die Strecken zusammenzählen und so die Gehgeschwindigkeit berechnen, erhalten wir:

1/(3*360)*(252+288+234)

## [1] 0.7166667

Wir sehen also, dass mit diesem Beispiel das arithmetische Mittel korrekt ist.

Sie finden dazu auch ein Video hier:

4.5 Geometrisches Mittel

Das geometrische Mittel wird nicht mit der Summe aller Werte berechnet, sondern mit dem Produkt aller Werte. Vom Produkt aller Werte wird die n-te Wurzel genommen.

\[\begin{equation} \sqrt[4]{x_1 \cdot x_2 \cdot x_3 \cdot x_4} \tag{4.5} \end{equation}\] d.h.

\[\begin{equation} \sqrt[4]{ 2 \cdot 4 \cdot 8 \cdot 16} = 5.657 \tag{4.6} \end{equation}\]

Wir können auch zuerst alle Werte logarithmieren, den normalen Mittelwert davon nehmen und das Resultat exponenzieren.

exp(mean(log(c(2,4,8,16))))

## [1] 5.656854

Im Gesundheitsbereich wird das geometrische Mittel unter anderem dann berechnet, wenn Daten keine linearen Zunahme zeigen. Dies ist zum Beispiel bei Antikörper-Titer der Fall. Ordnet man diese Werte der Grösse nach ein, sieht man einen nichtliniearen Anstieg. Wir können das mit der nächsten Abbildung illustrieren.

Werte_A = rnorm(100,50,4)
data<-data.frame(Werte_A) %>% 
  arrange(Werte_A) %>%
  mutate(id=row_number())
  

A<-ggplot(data, aes(x=id, y=Werte_A))+
  geom_point() +
  theme_classic()
  
  A_density<-ggplot(data, aes(x=Werte_A))+
  geom_density() +
  theme_classic()+
    geom_vline(aes(xintercept=mean(Werte_A, na.rm=TRUE)), color="red", size=1)+
    geom_vline(aes(xintercept=median(Werte_A, na.rm=TRUE)), color="purple", size=1)+
    geom_vline(aes(xintercept=exp(mean(log(Werte_A), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")

id<-1:100
Werte_B = 2^(id*0.05)

data<-data.frame(id, Werte_B) %>% 
  arrange(Werte_B) %>% 
  mutate(id=row_number())
B<-ggplot(data, aes(x=id, y=Werte_B))+
  geom_point()+
  theme_classic()
  
B_density<-ggplot(data, aes(x=Werte_B))+
  geom_density()+
  theme_classic()+
    geom_vline(aes(xintercept=mean(Werte_B, na.rm=TRUE)), color="red", size=1)+
  geom_vline(aes(xintercept=median(Werte_B, na.rm=TRUE)), color="purple", size=1)+
  geom_vline(aes(xintercept=exp(mean(log(Werte_B), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")

Werte_C = rnorm(80, 50,4)
C_outliers=rnorm(20,150,3)

Werte_C=c(Werte_C, C_outliers)

data<-data.frame(Werte_C) %>% 
  arrange(Werte_C) %>% 
  mutate(id=row_number())

C<-ggplot(data, aes(x=id, y=Werte_C))+
  geom_point()+
  theme_classic()
  
C_density<-ggplot(data, aes(x=Werte_C))+
  geom_density()+
  theme_classic()+
    geom_vline(aes(xintercept=mean(Werte_C, na.rm=TRUE)), color="red", size=1)+
  geom_vline(aes(xintercept=median(Werte_C, na.rm=TRUE)), color="purple", size=1)+
  geom_vline(aes(xintercept=exp(mean(log(Werte_C), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")+
  labs(x="Spitalaufenthalt (Tage)")

plot_grid(A, B, C, A_density, B_density,C_density, labels = c('A', 'B', 'C', 'D','E','F'))

A) Daten aus einer Normalverteilung. Die Werte steigen linear (zumindest im mittleren Bereich). B) Datenreihe, die Werte steigen exponentiel, d.h. der vorherige Werte wird immer mit einer Konstante multipliziert. C) Daten mit Ausreisser. D) Dichtegraphik der Werte in Abbildung A, E) Dichteplot der Werte in Abbildung B., F) Dichteplot der Werte in Abbildung C. Die roten Linien zeigen die arithmetischen Mittel, die violetten Linien die Mediane. Die goldgelben gestrichelten Linien zeigen die geometrischen Mittel.

Abbildung 4.6: A) Daten aus einer Normalverteilung. Die Werte steigen linear (zumindest im mittleren Bereich). B) Datenreihe, die Werte steigen exponentiel, d.h. der vorherige Werte wird immer mit einer Konstante multipliziert. C) Daten mit Ausreisser. D) Dichtegraphik der Werte in Abbildung A, E) Dichteplot der Werte in Abbildung B., F) Dichteplot der Werte in Abbildung C. Die roten Linien zeigen die arithmetischen Mittel, die violetten Linien die Mediane. Die goldgelben gestrichelten Linien zeigen die geometrischen Mittel.

Wir sehen bei diesen drei Datenformen, dass das geometrische Mittel bei normalverteilten Daten gleich ist, wie der Median. Dies ist auch der Fall, wenn die Daten einem multiplikativen Muster folgen, jedoch ist es nicht der Fall, wenn es Ausreisser gibt. Das geometrische Mittel ist zwar gegen Ausreisser nach gegen oben robuster als das arithmetische Mittel. Bei Ausreisser gegen unten ist dies jedoch nicht mehr der Fall.

Werte_A <- rnorm(80,50,4)
Ausreisser_A <- rnorm(20,5,0.3)
Werte_A <-c(Werte_A, Ausreisser_A)

data<-data.frame(Werte_A) %>% 
  arrange(Werte_A) %>%
  mutate(id=row_number())
  

A<-ggplot(data, aes(x=id, y=Werte_A))+
  geom_point() +
  theme_classic()

  A_density<-ggplot(data, aes(x=Werte_A))+
  geom_density() +
  theme_classic()+
    geom_vline(aes(xintercept=mean(Werte_A, na.rm=TRUE)), color="red", size=1)+
    geom_vline(aes(xintercept=median(Werte_A, na.rm=TRUE)), color="purple", size=1)+
    geom_vline(aes(xintercept=exp(mean(log(Werte_A), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")

id<-1:100
Werte_B = rnorm(100, 10,14)

data<-data.frame(id, Werte_B) %>% 
  arrange(Werte_B) %>% 
  mutate(id=row_number())

B<-ggplot(data, aes(x=id, y=Werte_B))+
  geom_point()+
  theme_classic()
  
B_density<-ggplot(data, aes(x=Werte_B))+
  geom_density()+
  theme_classic()+
    geom_vline(aes(xintercept=mean(Werte_B, na.rm=TRUE)), color="red", size=1)+
  geom_vline(aes(xintercept=median(Werte_B, na.rm=TRUE)), color="purple", size=1,linetype = "dashed")


B_density+ geom_vline(aes(xintercept=exp(mean(log(Werte_B), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")  # Das geometrische Mittel kann mit 0 und negativen Zahlen nicht berechnet werden, deswegen fehlt hier der goldgelbe Strich.

## Warning in log(Werte_B): NaNs produced

data("LOS_model")
Werte_C = LOS_model$LOS
Werte_C=c(Werte_C, C_outliers)

data<-data.frame(Werte_C) %>% 
  arrange(Werte_C) %>% 
  mutate(id=row_number())

C<-ggplot(data, aes(x=id, y=Werte_C))+
  geom_point()+
  theme_classic()
  
C_density<-ggplot(data, aes(x=Werte_C))+
  geom_density()+
  theme_classic()+
    geom_vline(aes(xintercept=mean(Werte_C, na.rm=TRUE)), color="red", size=1)+
  geom_vline(aes(xintercept=median(Werte_C, na.rm=TRUE)), color="purple", size=1)+
  geom_vline(aes(xintercept=exp(mean(log(Werte_C), na.rm=TRUE))), color="gold", alpha=0.9,size=1, linetype = "dashed")

plot_grid(A, B, C, A_density, B_density,C_density, labels = c('A', 'B', 'C', 'D','E','F'))

A) Daten mit Ausreisser nach unten. Wir sehen, dass das geometrische Mittel (goldgelber Strich) stark von den Ausreissern beeinflusst wird. B) Hier haben wir die Werte 0 und negative Zahlen; deswegen soll das geometrische Mittel nicht berechnet werden (wenn 0 in einer Multiplikationsreihe ist...) C) Daten für die Hospitalisierungsdauer. D) Dichtegraphik der Werte in Abbildung A, E) Dichteplot der Werte in Abbildung B., F) Dichteplot der Werte in Abbildung C. Die roten Linien zeigen die arithmetischen Mittel, die violetten Linien die Mediane. Die goldgelben gestrichelten Linien zeigen die geometrischen Mittel.

Abbildung 4.7: A) Daten mit Ausreisser nach unten. Wir sehen, dass das geometrische Mittel (goldgelber Strich) stark von den Ausreissern beeinflusst wird. B) Hier haben wir die Werte 0 und negative Zahlen; deswegen soll das geometrische Mittel nicht berechnet werden (wenn 0 in einer Multiplikationsreihe ist…) C) Daten für die Hospitalisierungsdauer. D) Dichtegraphik der Werte in Abbildung A, E) Dichteplot der Werte in Abbildung B., F) Dichteplot der Werte in Abbildung C. Die roten Linien zeigen die arithmetischen Mittel, die violetten Linien die Mediane. Die goldgelben gestrichelten Linien zeigen die geometrischen Mittel.

Die Daten der Abbildung C sind simulierte Spitalaufenthaltsdaten (hier klicken).

4.6 Beispiel aus der wissenschaftlichen Literatur: Antigen-Titer

Wir benutzen Daten aus einem im Plos Medicine veröffentlichten Artikel Gils et al. (2022).

data<-rio::import("https://doi.org/10.1371/journal.pmed.1003991.s009", format="xlsx", range="A4:C58")
data<-janitor::clean_names(data)
data[data=="ND"]<-NA
names(data)

## [1] "participant_id" "wt_2"           "wt_3"

data<-data %>%
  mutate(across(c(wt_2,wt_3), as.numeric)) %>% 
    arrange(wt_3)

ggplot(data, aes(y=wt_3, x=1:length(wt_3)))+
  geom_point()+
  theme_classic()+
  labs(x="Jeder Punkt ist eine Beobachtung, Werte der Grösse nach geordnet", y="Antikörper-Titer (BAU/ml)")

## Warning: Removed 8 rows containing missing values (`geom_point()`).

Für diese Graphik haben wir die Werte nach Grösse geordnet. Wir sehen, dass die Zunahme über die Ränge nicht linear ist. BAU= binding antibody units.

Abbildung 1.12: Für diese Graphik haben wir die Werte nach Grösse geordnet. Wir sehen, dass die Zunahme über die Ränge nicht linear ist. BAU= binding antibody units.

ggplot(data, aes(x=wt_3))+
  geom_density()+
  geom_vline(aes(xintercept=mean(wt_3, na.rm=TRUE)), color="red", size=2)+
  geom_vline(aes(xintercept=median(wt_3, na.rm=TRUE)), color="purple", size=2)+
  geom_vline(aes(xintercept=exp(mean(log(wt_3), na.rm=TRUE))), color="gold", alpha=0.9,size=2, linetype = "dashed")+
  theme_classic()

## Warning: Removed 8 rows containing non-finite values (`stat_density()`).

Density Plot der Daten. Der rote Strich zeigt das arithmetische Mittel, der violette Strich den Median. Der goldgelbe gestrichelte Strich zeigt das geometrische Mittel. Das geometrische Mittel ist jedoch nicht immer gleich wie der Median - dies ist nur der Fall, wenn die geordneten Werte multiplikativ zunehmen. Siehe auch @RN111

Abbildung 1.13: Density Plot der Daten. Der rote Strich zeigt das arithmetische Mittel, der violette Strich den Median. Der goldgelbe gestrichelte Strich zeigt das geometrische Mittel. Das geometrische Mittel ist jedoch nicht immer gleich wie der Median - dies ist nur der Fall, wenn die geordneten Werte multiplikativ zunehmen. Siehe auch Reverberi (2008)

4.7 Quiz zur zentralen Tendenz

Hier gehts zum Quiz

Abbildung 4.8: Quiz Zentrale Tendenz (da ist noch ein Fehler - es ist nich das korrekte Quiz - aber der Autor dieser Seite steht noch auf dem Schlauch…

4.8 Referenzen

Aebischer B et al. (2015) German Translation and Cross-Cultural Adaptation of the STarT Back Screening Tool. PLoS One 10, e0132068.

Gils MJ van et al. (2022) Antibody Responses Against SARS-CoV-2 Variants Induced by Four Different SARS-CoV-2 Vaccines in Health Care Workers in the Netherlands: A Prospective Cohort Study. PLoS medicine 19, e1003991.

Reverberi R (2008) The Statistical Analysis of Immunohaematological Data. Blood Transfusion 6, 37.

Rogan S et al. (2015) Validity Study of a Jump Mat Compared to the Reference Standard Force Plate. Asian J Sports Med 6, e25561.

Achtung Ausreisser.