Techniken des Deep Learning, einer Methode der Künstlichen Intelligenz (KI), erkennen Erkrankungen ähnlich gut wie Ärzte. Das berichten Xiaoxuan Liu vom University Hospitals Birmingham NHS Foundation Trust, Dr. Livia Faes vom Moorfields Eye Hospital NHS Foundation Trust London und ihre Kollegen in The Lancet Digital Health [1]. Basis war eine systematische Prüfung und Metaanalyse von 82 Studien.
Die Autoren kritisieren jedoch fehlende Standards und methodische Schwächen in vielen Veröffentlichungen. Da nur wenige qualitativ hochwertige Studien zur Verfügung stünden, bleibe die wahre Bedeutung der KI derzeit ungewiss.
„Wertvoll an der Studie ist, dass die Autoren einen Review vorgelegt haben – das gab es in dieser Form noch nicht“, sagt Prof. Dr. Michael Forsting im Gespräch mit Medscape. Er ist Direktor des Instituts für Diagnostische und Interventionelle Radiologie und Neuroradiologie am Universitätsklinikum Essen – und KI-Experte.
„Sie weisen nach, dass KI in der Lage ist, medizinische Fragestellungen zu beantworten“, sagt er im Gespräch mit Medscape. Das eigentlich Interessante stehe jedoch zwischen den Zeilen: „Wir brauchen mehr Studien, die externe Validierungen mit beinhalten.“

Prof. Dr. Michael Forsting
Das sei momentan noch selten der Fall. Beispielsweise entwickle ein Krankenhaus das Tool, teste es anhand eigener Trainingsdatensätze, und genau hier ende es dann oft. „Ob sich der Algorithmus für ein anderes Klinikum eignet, das CT- oder MRT-Geräte anderer Hersteller verwendet, bleibt z.B. unklar“, erklärt der Experte. „Genau deshalb wurden von den Autoren auch viele Studien ausgeschlossen.“ Das Problem sei zu lösen – „aber alle Algorithmen müssen diese Hürde nehmen.“
Was könne wir daraus lernen? Forsting fordert wie bei der Medikamentenentwicklung multizentrische Studien. Ein Algorithmus solle blind für die Datenquelle sein. „Das zeigt: Wir brauchen bei KI einen wissenschaftlichen Diskurs, keine emotionalen Debatten“, fasst der Experte zusammen.
KI – eine Technologie mit Potenzial
Zum Hintergrund: KI bietet ein enormes Potenzial für schnellere bzw. präzisere Diagnosen – und das ist teilweise auch schon im ärztlichen Alltag angekommen: Die US Food and Drug Administration (FDA) hat bereits mehr als 30 KI-Algorithmen eine Zulassung erteilt. Doch es bestünden Zweifel, inwieweit die Ergebnisse der Studien auch praktisch anwendbar seien, meinen die Autoren der aktuellen Analyse.
Um dazu mehr Evidenz zu liefern, führten sie eine systematische Übersicht und Metaanalyse durch. Basis waren Literaturrecherchen via Ovid-MEDLINE, Embase, Science Citation Index und dem Conference Proceedings Citation Index – und zwar vom 1. Januar 2012 bis 6. Juni 2019.
Als Einschlusskriterien definierten Liu, Faes und ihre Kollegen Studien, bei denen Deep-Learning-Ansätze mit ärztlichen Leistungen zur Diagnostik verglichen worden waren. Generell mussten binäre Daten vorhanden sein, also nicht nur Diagramme oder Grafiken ohne zugrundeliegende Quellen. Standardisierte Diagnosen waren ein weiteres Kriterium.
Die Forscher identifizierten 31.587 Studien, von denen 82 (mit 147 Patientenkohorten) eingeschlossen wurden. 69 Studien lieferten ausreichend viele Daten für weitere Analysen. Hier ergab sich für Diagnosen eine Sensitivität zwischen 9,7% und 100,0% (Mittelwert 79,1%, Standardabweichung [Standard Deviation, SD] 0,2) und einer Spezifität von 38,9% bis 100,0% (Mittelwert 88,3%, SD 0,1).
KI und Arzt diagnostizieren vergleichbar gut – aber es gibt zu wenige Studien
„Darüber hinaus validierten nur 25 Studien KI-Modelle extern, sprich unter Verwendung medizinischer Bilder aus einer anderen Population. Und nur 14 Studien verglichen tatsächlich die Leistung von KI und medizinischem Fachpersonal anhand derselben Teststichprobe“, erklärt Prof. Dr. Alastair Denniston in einer Pressemeldung von The Lancet Digital Health. Er forscht am University Hospitals Birmingham NHS Foundation Trust, Großbritannien.
Berücksichtigten Wissenschaftler ausschließlich die von Denniston genannten 14 Arbeiten, fanden sie eine gepoolte Sensitivität von 87,0% (95% KI 83,0 bis 90,2) für diagnostische Deep-Learning-Verfahren und 86,4% (79,9 bis 91,0) für Ärzte. Als gepoolte Sensitivität geben die Autoren 92,5% (95% KI 85,1 bis 96,4) versus 90,5% (80,6 bis 95,7) an.
„Innerhalb dieser Handvoll hochwertiger Studien fanden wir heraus, dass Deep Learning tatsächlich Krankheiten von Krebs bis hin zu Augenerkrankungen so genau erkennen könnte wie medizinisches Fachpersonal“, kommentiert Denniston. „Aber es ist wichtig, zu beachten, dass KI Diagnosen durch Ärzte nicht wesentlich übertroffen hat.“
Fehlende Standards bei KI-Studien
Die Autoren weisen jedoch auf mehrere Einschränkungen hin. Deep Learning wurde häufig in einer Weise bewertet, welche nicht der klinischen Praxis entspreche, so ihr Fazit. Beispielsweise lieferten nur 4 Studien Ärzten zusätzliche klinische Informationen, die sie normalerweise für eine Diagnose in der klinischen Praxis verwenden würden.
Darüber hinaus wurden wenige prospektive Studien in realen klinischen Umgebungen durchgeführt. Und die Autoren sagen, dass die Bestimmung der diagnostischen Genauigkeit hochwertige Vergleiche bei Patienten erfordert, nicht nur Datensätze. Teilweise waren Angaben in den Arbeiten unvollständig.
Im Artikel fordern Liu, Faes und ihre Kollegen: „Neue Standards beim Reporting, die sich mit spezifischen Herausforderungen des Deep Learning befassen, könnten künftige Arbeiten verbessern und mehr Vertrauen in die Ergebnisse von Bewertungen dieser vielversprechenden Technologie schaffen.“
„Der Nachweis, wie KI-Algorithmen die Ergebnisse der Patienten verändern werden, muss aus Vergleichen mit alternativen diagnostischen Tests in randomisierten kontrollierten Studien stammen“, ergänzt Faes. „Bisher gibt es kaum Studien, in denen diagnostische Entscheidungen eines KI-Algorithmus getroffen werden, um zu sehen, was dann mit den für die Patienten wirklich wichtigen Ergebnissen geschieht – wie rechtzeitige Behandlung, Entlassung aus dem Krankenhaus oder sogar Überlebensraten.“
Mensch oder Maschine: Lösen Studien diese Frage?
Dr. Tessa Cook von der University of Pennsylvania diskutiert in einem begleitenden Kommentar, ob KI überhaupt mit Ärzten aus Fleisch und Blut verglichen werden kann [2]. Denn in der Welt außerhalb von Labors seien Daten eben „chaotisch, schwer fassbar und unvollkommen“.
Wie Liu, Faes und ihre Kollegen festgestellt hätten, würden nur eine Handvoll Studien zur Leistung von KI-Modellen zusätzliches Wissen über den Patienten berücksichtigen – also über die primär erfassten Daten hinaus. Dies stehe im Widerspruch zur medizinischen Praxis, ein Anamnesegespräch zu führen, den Körper zu untersuchen und Symptome zu erfassen und gegebenenfalls weitere Untersuchungen durchzuführen.
„Das Vorhandensein oder Fehlen dieser Daten führt zu einer zusätzlichen Verzerrung, entweder in Richtung einer breiteren Differentialdiagnose oder einer spezifischen Diagnose“, schreibt Cook. „Auch hier stellt sich die Frage nach Diagnose versus Detektion – wenn KI mit einem begrenzten Datensatz trainiert wird, während der Arzt technisch die gesamte Krankenakte zur Hand hat. Welche Aufgabe erfüllt die KI dann tatsächlich? Und wenn der Humanmediziner gebeten wird, eine Diagnose mit einem Bruchteil der Daten zu stellen, die er normalerweise verwenden würde, bewerten wir dann tatsächlich die wahre Leistung des Arztes?“
Cook: „Angesichts der umfangreichen Diskussion über die Grenzen von Lius Studie könnte es verfrüht sein, die Gleichwertigkeit oder Überlegenheit von KI gegenüber Ärzten zu proklamieren.“ Besser sei, mit der Aussage zu arbeiten, KI sei nicht unterlegen.
Medscape Nachrichten © 2019 WebMD, LLC
Diesen Artikel so zitieren: Ist Künstliche Intelligenz Ärzten diagnostisch ebenbürtig? Es scheint so – doch fehlen Studien mit externer Validierung - Medscape - 9. Okt 2019.
Kommentar