Kapitel 2 Skalenniveaus

Nicht alle Daten sind gleich. Nicht mit allen Daten kann man das Gleiche rechnen.

2.1 Daten und Skalen-Niveaus

Statistik befasst sich mit quantitativen, bezifferbaren Informationen. Nicht alle Daten sind gleich. Schauen wir uns die Unterschiede an.

Wir können unterschiedliche Merkmale der Daten beschreiben. Eine mögliche Einteilung ist die folgende:

  • Beschreibende Daten / nominale Daten / kategorielle Daten
  • Binäre / dichotome Daten - in Prinzip eine Sonderform von beschreibenden Daten
  • Zähl-Daten (Count Data) - z.B. die Anzahl Stürze
  • Binäre Daten ausgedrückt als Proportionen, Risiken, oder Odds Ratios
  • Raten: Zähl-Daten oder binäre Daten ausgedrückt als Ereignisse pro Zeit, respektive pro Personen-Zeit (dazu später im Kapitel Epidemiologie mehr)
  • Kalenderdaten

Bemerkung In R werden die Daten anders eingeteilt, dort finden wir folgende Daten-Typen:

  • character: “Zeichen”, wie “Mann”.
  • Factor: kategorielle oder ordinale Daten, bei denen verschiedenen Levels sogenannte Labels zugeordnet werden, z.B. Levels 1 = Frau, 2 = Mann).
  • numeric oder double: Fliesskommazahlen.
  • integer: ganze Zahlen
  • logical: True (Wahr) oder False (Falsch)
Wer mehr darüber lesen möchte, findet hier eine gute Seite. Doch wieder zurück zu den Skalenniveaus.

Es ist wichtig, dass wir immer genau verstehen, was unsere Daten bedeuten. Je nach Daten-Art können oder müssen wir andere Statistiken benutzen. Zum Beispiel kann es sein, dass in einem Datensatz die Variable Geschlecht mit 1 und 2 angegeben wird, was übrigens nicht mehr zeitgemäss wäre. Mit diesen Einsen und Zweien dürfen wir nicht alles rechnen. Zum Beispiel macht es keinen Sinn, davon einen Mittelwert zu berechnen.

2.1.1 Nominale Daten / kategorielle Daten

Wenn wir uns Abbildung 3.2 anschauen, sehen wir zum Beispiel unterschiedliche Fellfarben. Wenn wir nun eine Variable Fellfarbe erstellen, so hätte diese Variable die Ausprägungen: “braun”, “getigert”, “weiss”, “grau”. Das sind nominale Daten, respektive das Skalen-Niveau ist nominal. Das einzige, was wir mit nominalen Daten rechnen können, ist die absolute und die relative Häufigkeit zu zählen. Wir können sagen, dass wir insgesamt sechs Katzen sehen, wovon zwei Katzen braun sind (33.3%), zwei weiss (33.3%), sowie eine grau (16.7%) und eine getigert ist (16.7%). Die Information “Zwei Katzen” wäre die absolute Häufigkeit, zwei von sechs die relative Häufigkeit (2/6 = 0.333 = 33.3%).

  • Nominale Daten werden auch kategorielle Daten genannt. Weitere Beispiele wären: Heimatkanton, Blutgruppe, Geschlecht, oder Zivilstand
  • Nominale Daten werden manchmal auch als qualitative Daten bezeichnet, da ihr Inhalt nicht quantifiziert werden kann. Was man aber quantifizieren kann, ist die Häufigkeit der einzelnen Ausprägungen.
  • Was meinen wir mit Ausprägung? Die Variable Fellfarbe kann verschiedene Ausprägungen annehmen (z.B. weiss, grau, braun, etc.).
Katzen mit unterschiedlichen Merkmalen. Zum Beispiel die Beschreibung der Fellfarbe.

Abbildung 2.1: Katzen mit unterschiedlichen Merkmalen. Zum Beispiel die Beschreibung der Fellfarbe.

Wenn wir eine nominale Variable haben, die nur zwei Ausprägungen annehmen kann, so sprechen wir auch von binären (von lateinisch bina „doppelt, paarweise“) oder dichotomen (zweigeteilte) Daten. Auch mit dichotomen Daten können wir absolute und relative Häufigkeiten berechnen.

Männlicher Pfau, der versucht die weiblichen Pfauen zu beeindrucken

Abbildung 2.2: Männlicher Pfau, der versucht die weiblichen Pfauen zu beeindrucken

2.1.2 Ordinale Daten

Sobald wir kategorielle Daten in eine Rangfolge einordnen können, sprechen wir von Rangdaten, respektive ordinalen Daten (ordinales Skalen-Niveau)

Rangdaten = ordinale Daten

Abbildung 2.3: Rangdaten = ordinale Daten

Bei ordinalen Daten können wir die Perzentile berechnen (Rangprozente). Die 50. Perzentile ist der Median, d.h. die Hälfte aller Werte sind unterhalb, die Hälte oberhalb der 50. Perzentile. Theoretisch sollten wir keine Differenzen und Additionen mit ordinalen Daten rechnen, da die Resultate nicht interpretierbar sind, da ja die Abstände zwischen den einzelnen Rängen nicht gleich gross sind. Eine Differenz zwischen 8 und 10 ist somit nicht unbedingt gleich gross wie die Differenz zwischen 5 und 7. Wir sollten auch keinen Durchschnitt berechnen, sondern den Median. Doch dazu später mehr.

2.1.3 Intervallskalierte Daten

Wenn die Abstände zwischen den Rängen, respektive den Einheiten immer gleich gross sind, so sprechen wir von intervallskalierten Daten. Ein Beispiel sind hier die Körpergrösse, das Körpergewicht, oder die Temperatur.

Beim Messband sind die Abstände von Millimeter zu Millimeter immer gleich gross, nämlich einen Millimeter

Abbildung 2.4: Beim Messband sind die Abstände von Millimeter zu Millimeter immer gleich gross, nämlich einen Millimeter

Mit intervallskallierten Daten können wir jetzt Differenzen und Additionen rechnen. Falls die Daten einigermassen symmetrisch verteilt sind, dürfen wir auch den Mittelwert berechen.

Was meinen wir mit symmetrisch verteilt? Die nächste Graphik zeigt drei Histogramme. Die Verteilung ganz links und die in der Mitte sind einigermassen symmetrisch. Die Verteilung rechts ist jedoch schief.

par(mfrow=c(1,3))
set.seed(340)

Normalverteilung<-rnorm(10000, 80,6)

hist(Normalverteilung, col="#8718F5", breaks=50)
Symmetrische_Verteilung<-rnorm(400, 80,6)
hist(Symmetrische_Verteilung, col="#B921F5", breaks=50)

# schiefe Verteilung
Schiefe_Verteilung<-sn::rsn(100, 80, 6, 8)
hist(Schiefe_Verteilung, col="#D76FF6", breaks=50)
Drei Verteilungen, dargestellt mit Histogrammen, links eine Normalverteilung, in der Mitte eine einigermassen symmetrische Verteilung, und rechts eine schiefe Verteilung. Die Statistiker:innen mögen die Normalverteilung am liebsten, da sich normalverteilte Daten am einfachsten analysieren lassen. Bei Normalverteilung dürfen wir Mittelwert und Standardabweichung rechnen (nächstes Kapitel)

Abbildung 2.5: Drei Verteilungen, dargestellt mit Histogrammen, links eine Normalverteilung, in der Mitte eine einigermassen symmetrische Verteilung, und rechts eine schiefe Verteilung. Die Statistiker:innen mögen die Normalverteilung am liebsten, da sich normalverteilte Daten am einfachsten analysieren lassen. Bei Normalverteilung dürfen wir Mittelwert und Standardabweichung rechnen (nächstes Kapitel)

Falls eine intervallskalierte Variable einen absoluten Nullpunkt hat, nennen wir diese Daten proportionalskaliert. Wir dürfen damit Verhältnisse ausdrücken. Wir dürfen zum Beispiel sagen, dass 100 Kg doppelt so schwer sind wie 50 Kg. Oder im Beispiel in der Abbildung 2.4 dürfen wir sagen, dass 10 Zentimeter halb so lang sind wie 20 Zentimeter. In der Abbildung 3.6 sehen wir Thermometer mit drei unterschiedlichen Einheiten. Celsius ist nicht proportionalskaliert, wir dürfen also nicht sagen, dass 20° doppelt so warm ist wie 10° Celsius. Celsious hat zwar einen Nullpunkt, dieser ist jedoch kein absoluter Nullpunkt, da die Temperatur unter Null sinken kann.

Thermometer mit Fahrenheit, Celsius und Kelvin. Celsius und Fahrenheit sind nicht proportionalskaliert, da sie keinen absoluten Nullpunkt haben. Kelvin hingegen hat einen absoluten Nullpunkt. Verhältnisse, wie z.B. doppelt so warm, dürfen also nur mit Kelvin gemacht werden.

Abbildung 2.6: Thermometer mit Fahrenheit, Celsius und Kelvin. Celsius und Fahrenheit sind nicht proportionalskaliert, da sie keinen absoluten Nullpunkt haben. Kelvin hingegen hat einen absoluten Nullpunkt. Verhältnisse, wie z.B. doppelt so warm, dürfen also nur mit Kelvin gemacht werden.

Übersicht über die Skalvenniveaus

Abbildung 2.7: Übersicht über die Skalvenniveaus

2.2 Von der Messgrösse oder dem Konstrukt zu den Daten

Eine Messgrösse (z.B. das Alter) oder ein Konstrukt (z.B. der Schmerz oder die Intelligenz) kann unterschiedlich gemessen und operationalisiert werden. Das Alter können wir als Proportionalskala darstellen (Alter in Jahren seit Geburt), oder als ordinale Skala (z.B. Kinder, Jugendliche, Erwachsene, Senioren), oder sogar als dichotome Variable dargestellt werden (z.B. Jung / Alt). Der Schmerz ist keine Messgrösse, da wir den Schmerz nicht direkt messen können (es ist keine physikalische Grösse); es ist ein Konstrukt. Der Schmerz können wir als dichotome Variable operationalisieren (kein Schmerz / Schmerz), als ordinale Variable (kein Schmerz, milder Schmerz, mässiger Schmerz, starker Schmerz, schlimmstvorstellbarer Schmerz) oder als Skala von 0 bis 100, wobei 0 = Kein Schmerz und 100 = schlimmster Vorstellbarer Schmerz bedeutet. In der Praxis wird die letzte Variante meist wie eine Proportionalskala behandelt, obschon wir ja nicht sicher sind, dass die Abstände zwischen den einzelnen Schmerzeinheiten immer gleich gross sind. Ist die Zunahme des Schmerzes zwischen 10 und 20 gleich wie zwischen 50 und 60? Wir wissen es nicht. Puristen würden sagen, dass wir auch diese Skala nur als Ordinalskala behandeln sollten (d.h. keinen Mittelwert berechnen, sondern Median, und ganz streng genommen auch keine Differenzen).

2.3 Testen Sie Ihr Wissen mit einem kleinen Quiz

Sie können das Quiz auf einer neuen Seite anschauen, oder hier unterhalb in einem Fenster. klicken Sie hier um zum Quiz zu gelangen.

Abbildung 2.8: Quiz Häufigkeit der Diagnosen

Ende des Kapitels