Kapitel 3 Quantile und Perzentile

3.0.1 Wir benötigen folgende Pakte in diesem Kapitel

library(ggplot2)

Wir Menschen teilen gerne aus, aber noch lieber teilen wir ein. Wenn wir eine Sammlung von Daten haben, bringen wir gerne Ordnung hinein. Wir erstellen zum Beispiel gerne Ranglisten. Ranglisten sind aber etwas Mühsam, wenn wir sehr viele Werte in unserer Datensammlung haben. “Der Wert 53.98 ist auf dem Rang 945 von 1500 Daten” ist weniger informativ als zu sagen, dass 63% der Werte tiefer sind und 37% der Werte grösser sind, als dieser Wert. Der Wert liegt also auf der 63. Perzentile.

Wir könnten auch sagen, der Wert liegt im dritten Viertel der Daten (fälschlicherweise wird oft gesagt “im dritten Quartil - doch Quartile bezeichnen nicht die Abschnitte, sondern die Grenzen, siehe weiter unten).

Werte<-rnorm(1500, 50, 12)
qnorm((945/1500), mean=50, sd=12)
## [1] 53.98224
pnorm(53.98, mean=50, sd=12, lower.tail = TRUE)
## [1] 0.6299295
dt <- data.frame(x=c(1:1500),y=rnorm(1500, 50, 12))
dens <- density(dt$y)
df <- data.frame(x=dens$x, y=dens$y)
probs <- c(0, 0.25, 0.5, 0.75, 1)
quantiles <- quantile(dt$y, prob=probs)
df$quant <- factor(findInterval(df$x,quantiles))
ggplot(df, aes(x,y)) + geom_line() + geom_ribbon(aes(ymin=0, ymax=y, fill=quant)) + scale_x_continuous(breaks=quantiles) + scale_fill_brewer(guide="none")+
  theme_classic()+
  labs(y="Density")+
  geom_point(aes(x=qnorm((945/1500), mean=50, sd=12), y=0.01), size=2)
Density Graphik, die weissen vertikalen Linien geben die drei Quartile an, die die Daten in vier Viertel teilen. Der schwarze Punkt gibt den Wert 945 an. Code von [https://stackoverflow.com/questions/34029811/fill-different-colors-for-each-quantile-in-geom-density-of-ggplot](https://stackoverflow.com/questions/34029811/fill-different-colors-for-each-quantile-in-geom-density-of-ggplot){target="_blanke"}

Abbildung 2.8: Density Graphik, die weissen vertikalen Linien geben die drei Quartile an, die die Daten in vier Viertel teilen. Der schwarze Punkt gibt den Wert 945 an. Code von https://stackoverflow.com/questions/34029811/fill-different-colors-for-each-quantile-in-geom-density-of-ggplot

3.1 Perzentile

Wenn wir die Grösse von Kindern messen, können wir die gemessene Grösse mit Normwerten vergleichen. Eine Möglichkeit besteht darin, die Normwerte in Perzentilen auszudrücken. So kann ich die Grösse eines Kindes mit der Grössen/Perzentilen-Tabelle vergleichen und sagen, auf welcher Perzentile sich der Wert des Kindes befindet. Ist die Grösse des Kindes z.B. auf der 50. Perzentile, bedeutet dies, dass 50% der Kinder grösser sind. Befindet sich die Grösse des Kindes auf der 25. Perzentile, bedeutet dies, dass 75% aller Kinder grösser sind. Befindet sich die Grösse des Kindes auf der 75. Perzentile, so bedeutet dies, dass 25% der Kinder grösser sind. Oft werden z.B. das Gewicht, die Länge und der Kopfumfang von Babys als Perzentilen ausgedrückt. Wenn nun das Gewicht eines Babys auf der 50. Perzentile liegt, bedeutet dies, dass 50% aller Babys leichter sind. Wenn das Gewicht eines Babys auf der 90. Perzentile liegt, wissen wir, dass 90% aller Babys leichter sind und nur 10% aller Babys schwerer.

3.1.1 Beispiele Perzentile

Hier unten sehen wir ein Beispiel mit Perzentilenkurven. Für jedes Alter zwischen 50 und 90 gibt es für die “normale” Gehgeschwindigkeit Perzentilenwerte.

Klicken Sie hier, um die Webseite in einem neuen Tab zu öffnen

Sie können die Körpergrösse und das Geschlecht, sowie die Gehgeschwindigkeit einer Person über 50 Jahre eingeben und die Applikation zeigt danach die Position auf den Perzentilenkurven an.

Abbildung 3.1: Eingebettete Webseite der Applikation für die Perzentile der Gehgeschwindigkeit. Für eine bessere Ansicht bitte auf Link oberhalb der Graphik klicken.

3.2 Quantile

Ein p-Quantil ist ein Lagemass, wobei p eine Zahl zwischen 0 und 1 ist. Das p-Quantil teilt die Verteilung in 2 Teile: Links vom p-Quantil liegen 100p Prozent aller Beobachtungswerte, Rechts vom p-Quantil liegen 100 (1-p) Prozent aller Beobachtungswerte. Das 0.5 Quantil ist also der Median. \(0.5\cdot 100\) = 50% aller Werte liegen Rechts (oberhalb) und \(100\cdot 1-0.5\) =50% aller Werte liegen unterhalb.

Bei kontinuierlichen Daten, die ja theoretisch in unendliche kleine Einheiten eingeteilt werden könnten (z.B. 50 ist ja praktisch nie 50, sondern wäre z.B. 50.250000000001), sagt man, dass z.B. beim Median die Hälfte unterhalb liegt und die Hälfte oberhalb. Da wir die Werte ja in der Praxis nie in unendlich kleinen Einheiten angeben, sondern eben z.B. als 50.25, so wird oft auch gesagt, dass der Median der Wert ist, bei dem 50% der Daten genau diesen Wert oder einen kleineren Wert haben.

Der Median ist überigens auch die 50. Perzentile. Die 0.25 Quantile ist auch das 1. Quartil und die 25. Perzentile; die 0.5 Quantile ist der Median, das 50. Perzentil, und das 2. Quartil. Die 0.75 Quantile ist die 75. Perzentile oder das 3. Quartil. Es gibt übrigens nur 3 Quartile; diese teilen die Daten in 4 Teile. Der Begriff Quartile wird manchmal fälschlicherweise benutzt, um einen Viertel der Daten zu beschreiben, was aber falsch wäre.

Abbildung 3.2: Quantile, Perzentile und Quartile.

Ende des Kapitels