Signifikant, aber auch relevant? Zu viele Studien liefern signifikante Ergebnisse – Forscher diskutieren Lösungsansätze

Michael van den Heuvel

Interessenkonflikte

15. Mai 2018

In biomedizinischen Veröffentlichungen berichten Wissenschaftler fast ausschließlich von statistischer Signifikanz. Prof. Dr. John P. A. Ioannidis, Forscher an der Stanford University, Kalifornien, erörtert in JAMA, welche Sinnhaftigkeit ein übliches Signifikanzniveau von 5%, das p-Werte unter 0,05 als signifikant identifiziert, überhaupt hat [1]. Als Lösung schlägt er vor, p kleiner 0,005 als Schwellenwert zu verwenden.

„Eigentlich ist die Wahl des Signifikanzniveaus willkürlich“, sagt PD Dr. Andreas Beyerlein zu Medscape. Der Diplomstatistiker ist stellvertretender Leiter der Core Facility Statistical Consulting am Institute of Computational Biology, Helmholtz Zentrum München. „Ioannidis‘ Vorschlag ist aus meiner Sicht durchaus überlegenswert“, ergänzt der Experte. „Andererseits ist auch p < 0,005 ein willkürlicher Wert.“

 
Ioannidis‘ Vorschlag ist aus meiner Sicht durchaus überlegenswert. Andererseits ist auch p < 0,005 ein willkürlicher Wert. PD Dr. Andreas Beyerlein
 

Probleme sieht Beyerlein weniger in der universitären Forschung. „Bei klinischen Studien und Tierversuchen müssten jedoch weitaus mehr Probanden oder Patienten bzw. Versuchstiere aufgenommen werden, um dieses Signifikanzniveau zu erreichen.“ Dies führe zu höheren Hürden, Untersuchungen überhaupt durchzuführen.Beyerlein selbst präferiert einige von Ioannidis´ Alternativvorschlägen. Dazu zählen Effektgrößen in Verbindung mit Konfidenzintervallen, „denn nicht immer sind statistisch signifikante Unterschiede auch in der Praxis relevant“, erklärt der Experte. Gleichzeitig fordert er, das statistische Verständnis von Ärzten oder Bürgern zu verbessern. „Diese Bestrebungen sind aber nicht neu; sie werden in der Statistik schon länger propagiert.“

96 Prozent aller Studien liefern statistisch signifikante Ergebnisse

Zum Hintergrund: In wissenschaftlichen Studien spielt der p-Wert (Probability, Wahrscheinlichkeit) bei der Bewertung von Ergebnissen seit Jahrzehnten die zentrale Rolle. Zunächst formuliert man die Nullhypothese (z.B. „Ein neuer Arzneistoff und Placebo unterscheiden sich nicht“), dann die Alternativhypothese („Der neue Arzneistoff ist dem Placebo überlegen“). Mit den Daten wird schließlich ein Signifikanztest durchgeführt und der p-Wert ermittelt und dieser mit einem vorab festgelegten Signifikanzniveau verglichen. Das übernehmen heute leistungsfähige Programme.

Forscher verwenden als Signifikanzniveau üblicherweise 5%, klassifizieren also p-Werte kleiner 0,05 als signifikant. Das bedeutet, es sollte in weniger als 5% aller Fälle ein signifikantes Testergebnis auftreten, obwohl die Nullhypothese in Wirklichkeit zutrifft.

 
Statistisch signifikant heißt nicht unbedingt klinisch relevant. Prof. Dr. John P. A. Ioannidis
 

Rein theoretisch genügen viele Analysen diesen Bedingungen nicht. Sie liefern keine statistisch signifikanten Unterschiede, die für Alternativhypothesen sprechen. Umso überraschter ist Ioannidis vom Ergebnis automatisierter Literaturanalysen seiner Kollegen. Sie haben rund 50 Millionen Abstracts ausgewertet. „96 Prozent der Studien berichteten ein signifikantes Ergebnis“, fasst Ioannidis zusammen.

Das sei allein schon unwahrscheinlich und spreche gegen das Konzept des Zufalls. Ein „Publication Bias“ durch nicht veröffentlichte, vermeintlich „schlechte“ Daten oder Nichterwähnung nicht signifikanter Zusammenhänge kommt als Teil des Problems mit hinzu.

Schwächen im System

Damit nicht genug. „Viele Behauptungen, die in diesem Zusammenhang aufgestellt werden, sind schlichtweg falsch“, schreibt Ioannidis. Beispielsweise würden p-Werte von 0,02 fälschlicherweise so interpretiert, dass die Nullhypothese nur zu 2% wahr ist und die Alternativhypothese zu 98%, das heißt, ein Arzneistoff wirke mit 98%-iger Wahrscheinlichkeit besser als das Placebo.

„Gut aussehende“ kleine p-Werte seien vor allem bei fehlender Transparenz gefährlich. Deshalb warnt Ioannidis Forscher und Politiker, Entscheidungen allein von p-Werten abhängig zu machen. „Statistisch signifikant heißt nicht unbedingt klinisch relevant“, lautet sein Hinweis. Außerdem warnt er, Signifikanz und Kausalität gleichzusetzen.

Brauchen wir niedrigere p-Werte?

Angesichts dieser Schwächen haben 30 Experten der American Statistical Association (ASA) bereits 2016 eine Erklärung zum p-Wert abgegeben. Darin heißt es: „Die weit verbreitete Verwendung des Begriffs statistischer Signifikanz als Lizenz, Anspruch auf wissenschaftliche Erkenntnisse zu erheben, führt zur beträchtlichen Verzerrung wissenschaftlicher Ergebnisse.“

Gleichzeitig empfehlen 72 Statistiker, das allgemein akzeptierte statistische Signifikanzniveau von 0,05 auf 0,005 abzusenken. „Der Vorschlag geht mit starker Unterstützung, aber auch mit Bedenken mancher Wissenschaftler einher“, schreibt Ioannidis.

 
Die weit verbreitete Verwendung des Begriffs statistischer Signifikanz als Lizenz, Anspruch auf wissenschaftliche Erkenntnisse zu erheben, führt zur beträchtlichen Verzerrung wissenschaftlicher Ergebnisse. American Statistical Association
 

Er schließt sich der Empfehlung an, das Kriterium für die statistische Signifikanz von p-Werten von unter 0,05 auf unter 0,005 zu verringern, und weist auf mögliche Folgen hin: „Dadurch würde ein Drittel aller bislang veröffentlichten Studien aus der Kategorie ‚statistisch signifikant‘ zu ‚suggestiv‘ verschoben.“

Ioannidis weiter: „Für die überwiegende Mehrheit der bisherigen Beobachtungsforschung wäre diese Neukategorisierung aber willkommen.“ Das Ende der Fahnenstange ist mit p<0,005 noch lange nicht erreicht. Bei sogenannten Umbrella-Reviews (hier werden mehrere Übersichtsarbeiten erneut analysiert) lassen sich p-Werte unter 10−6 erzielen.

Mehr Schulung für alle

Diese Änderungen gehen aber auch mit Risiken einher. Ioannidis befürchtet, Sponsoren könnten stärker als bislang nach Wegen suchen, um möglichst niedrige p-Werte zu generieren. So lassen sich mit großen Patientengruppen statistisch hochsignifikante, aber praktisch bedeutungslose Unterschiede zwischen der Null- und der Alternativhypothese nachweisen, worauf auch Beyerlein hinweist.

Weitere Alternativen, etwa den kompletten Verzicht auf p-Werte oder die Verwendung von absoluten p-Werten anstelle von Intervallen, hält der Editorialist für wenig zweckdienlich. Dieser Aussage stimmt Beyerlein ebenfalls zu. Bleibt noch, sich stärker an Effekten zu orientieren und Forscher besser in Statistik zu schulen.

Kommentar

3090D553-9492-4563-8681-AD288FA52ACE
Wir bitten darum, Diskussionen höflich und sachlich zu halten. Beiträge werden vor der Veröffentlichung nicht überprüft, jedoch werden Kommentare, die unsere Community-Regeln verletzen, gelöscht.

wird bearbeitet....