Kapitel 23 Beispiele aus der Literatur zu “Mit Statistik Fragen beantworten und Hypothesen testen”

23.1 Beispiel 1: The effect of preoperative chest physiotherapy on oxygenation and lung function in cardiac surgery patients: a randomized controlled study

Shahood, H., Pakai, A., Rudolf, K., Bory, E., Szilagyi, N., Sandor, A., & Zsofia, V. (2022). The effect of preoperative chest physiotherapy on oxygenation and lung function in cardiac surgery patients: a randomized controlled study. Annals of Saudi Medicine, 42(1), 8-16.

In diesem Beispiel schauen wir uns zwei Probleme an:

  • Der p-Wert alleine sagt uns nichts über die Stärke / Grösse des Effektes.

Im Abstract schreiben die Autoren der Studie:

Results: Postoperative improvements in lung function and oxygen saturation in the intervention group were statistically significant compared with the control group. The intervention group also had a statistically significant shorter hospital stay (P<.01).

Wir wissen zwar jetzt, dass die Interventionsgruppe eine statistisch signifikant kürzere Spitalaufenthaltsdauer hat, aber wir wissen nicht, wie gross dieser Unterschied ist.

Wahrscheinlichen finden wir diese Information im Volltext. Die Autoren schreiben, dass diese Information in der Tabelle 4 zu finden ist. Wir finden jedoch die Tabelle 4 nicht (vielleicht habt ihr mehr Glück).

  • Take Home Message: Zusätzlich zum P-Wert immer auch die Punktschätzun des Effektes (hier wie viele Tage der Unterschied zwischen den Gruppen war) und die 95% Konfidenzintervalle angeben.

23.2 Beispiel 2: Home-based rehabilitation programme compared with traditional physiotherapy for patients at risk of poor outcome after knee arthroplasty: the CORKA randomised controlled trial.

Barker, K. L., Room, J., Knight, R., Dutton, S., Toye, F., Leal, J., … & Lamb, S. (2021). Home-based rehabilitation programme compared with traditional physiotherapy for patients at risk of poor outcome after knee arthroplasty: the CORKA randomised controlled trial. BMJ open, 11(8), e052598.

Link zum Volltext

Das primäre Outcome bei der 12 Monats Nachfolgeuntersuchung war:

Primary outcome The primary outcome was the Late-Life Function and Disability Instrument (LLFDI) overall function score. It was developed specifically to assess change in communitydwelling older adults. It assesses and responds to meaningful change in two distinct outcomes: a person’s ability to do discrete actions or activities using a 32-item function component (primary outcome) and a person’s performance of socially defined life tasks using a 16-item disability component (secondary outcome).

Der kleinste klinisch relevante Unterschied wird mit 5-Punkten angegeben. Beauchamp, M. K., Ward, R. E., Jette, A. M., & Bean, J. F. (2019). Meaningful change estimates for the late-life function and disability instrument in older adults. The Journals of Gerontology: Series A, 74(4), 556-559..

Die Autoren schreiben im Abstract folgendes (Fett durch uns hervorgehoben, was wir uns speziell anschauen möchten):

Results 621 participants were randomised between March 2015 and January 2018. 309 were assigned to CORKA (Community Rehabilitation after Knee Arthroplasty) home-based rehabilitation, receiving a median five treatment sessions (IQR 4–7). 312 were assigned to usual care, receiving a median 4 sessions (IQR 2–6). The primary outcome, LLFDI function total score at 12 months, was collected for 279 participants (89%) in the home-based CORKA group and 287 participants (92%) in the usual care group. No clinically or statistically significant difference was found between the groups (intention-to-treat adjusted difference=0.49 points; 95% CI −0.89 to 1.88; p=0.48). There were no statistically significant differences between the groups on any of the patient-reported or physical secondary outcome measures at 6 or 12 months.

  • Der Unterschied im LLFDI Function total score bei 12 Monaten ist 0.49 Punkte. Wir dürfen jedoch nie nur diesen Punktschätzer beurteilen, ohne das Konfidenzintervall (oder den p-Wert) zu beachten. Das Konfidenzintervall geht von -0.89 bis 1.88. Bei einer Differenz ist ja der Kein-Effekt-Wert die 0, respektive die Nullhypothese wäre ja hier, dass die Differenz zwischen beiden Interventionen in der Population 0 ist. Da jetzt das Konfidenzintervall die 0 beinhaltet, wissen wir, dass wir die Nullhypothese nicht verwerfen können. Wir dürfen auch sagen, dass es keinen statistisch signifikanten Unterschied gibt. Aber was wir nicht sagen dürfen, ist, dass es keinen Unterschied gibt. Unsere Daten sind immer noch kompatibel mit einem Effekt (Unterschied) von - 0.89 oder 1.88. Wir müssten jetzt aber wissen, was der kleinste klinisch relevante Unterschied ist (minimal clinically important difference) - Der wäre 5 Punkte. Also sind die Daten nicht kompatibel mit einem klinisch relevanten Unterschied.

In der Diskussion schreiben die Autoren: No statistical or clinically meaningful differences were found between CORKA and usual outpatient physiotherapy.

  • Take Home Message: Immer schauen, ob der klinisch relevante Unterschied noch im Konfidenzintervall beinhaltet ist.

23.3 Beispiel 3: Effectiveness of a dance-physiotherapy combined intervention in Parkinson’s disease: a randomized controlled pilot trial

Frisaldi, E., Bottino, P., Fabbri, M., Trucco, M., De Ceglia, A., Esposito, N., … & Benedetti, F. (2021). Effectiveness of a dance-physiotherapy combined intervention in Parkinson’s disease: a randomized controlled pilot trial. Neurological Sciences, 42(12), 5045-5053.

Die Autoren schreiben im Abstract

Objective: The study aims to examine the effectiveness of a new dance-physiotherapy combined intervention, called DArT method, in mild PD patients.

Results: DArT method was associated with a 2.72-point reduction in the post-treatment MDS-UPDRS-III total score compared to control group (95% CI - 5.28, - 0.16, p = 0.038, d = 0.71), and with a 2.16-point reduction in the post-treatment MDS-UPDRS-III upper body subscore (95% CI - 3.56, - 0.76, p = 0.003, d = 1.02). Conversely, conventional physiotherapy program was associated with a 2.95-point reduction in the post-treatment trait anxiety compared to the experimental group (95% CI 0.19, 5.71, p = 0.037, d = 0.70). Withdrawal and fall rates were equal to 0% in both groups.

  • Die Autoren geben neben dem Punktschätzer (z.B. 2.72-Punkte Zwischengruppendifferenz) auch das Konfidenzintervall (95% CI -5.28 bis -0.16), sowie den p-Wert an (p = 0.038). Zusätzlich geben sie noch eine standardisierte Effektgrösse an, nämlich Cohen’s d (d = 0.71). Dieses d kann so interpretiert werden: 0.2 = kleiner Effekt, 0.5 = mittlerer Effekt, und 0.8 = grosser Effekt. Wir sehen also hier einen mittleren bis grossen Effekt.

  • Take Home Message: Wenn wir Punkte auf einer Skala nur schwierig interpretieren können, hilft uns die standardisierte Effektgrösse (z.B. Cohen’s d).