Künstliche Intelligenz: Diagnostizieren Algorithmen besser als Ärzte? Die Evidenz dafür ist bislang schwach

Paul Klammer

Interessenkonflikte

31. Juli 2018

Können künstlich intelligente Computer es mit erfahrenen Ärzte aufnehmen und schon bald in Kliniken und Praxen die Diagnosen stellen? Für Verfechter der künstlichen Intelligenz (KI) scheint dieses Szenario ausgemacht. Ein Blick in die wissenschaftliche Literatur offenbart jedoch, dass bis zum Einzug solcher Assistenz-Algorithmen in die Routine-Versorgung noch viel zu tun bleibt.

Der Chefredakteur der US-Ausgabe von Medscape, Dr. Eric Topol, hat auf Twitter eine Liste jener Studien veröffentlicht, die zu dem Ergebnis gekommen sind, dass künstlich intelligente Algorithmen Fachärzten ebenbürtig oder überlegen sind (siehe Tabelle am Ende des Artikels). „Bei all der Diskussion darüber, dass KI die Leistung von Ärzten erreicht oder übertrifft, gibt es dazu nur eine sehr kleine Zahl von Peer-Review-Publikationen“, schreibt er. Gerade mal 11 wissenschaftliche Arbeiten aus allen Bereichen der Medizin hat Topol identifiziert.

 
Bei all der Diskussion darüber, dass KI die Leistung von Ärzten erreicht oder übertrifft, gibt es dazu nur eine sehr kleine Zahl von Peer-Review-Publikationen.  Dr. Eric Topol
 

Für einen Vorteil durch intelligente Algorithmen finden sich bislang keine Belege aus randomisiert-kontrollierten Studien. Die meisten Studien beschränkten sich darauf, die Diagnose-Genauigkeit verschiedener künstlich intelligenter Programme untereinander in silico oder gegen Fachärzte anhand retrospektiver Daten zu testen.

Intrakraniale Blutungen erkennen

Nur selten wurde dabei überhaupt der Versuch unternommen, ein solches Programm auch prospektiv in einem klinischen Setting anzuwenden. Beispielsweise haben Radiologen um Dr. Mohammad R. Arbabshani und Dr. Brandon K. Fornwalt ein Programm mit 37.074 Datensätzen von Schädel-CTs darauf trainiert, intrakraniale Blutungen zu erkennen. Die Ärzte arbeiten für den privaten US-amerikanischen Klinikverbund Geisinger. Alle Aufnahmen stammten von Patienten des Verbunds. Ihr Programm haben sie anhand 9.499 weiterer Aufnahmen evaluiert. Die Spezifität lag bei 0,8, die Sensitivität bei 0,73.

Anschließend setzten die Autoren das Programm 3 Monate lang zur ergänzenden Triage in der Klinik ein. Es bewertete 347 Datensätze von Patienten, die zuvor als nicht-prioritär einstuft worden waren. Dabei entdeckte das Programm 94 Fälle mit Anzeichen einer intrakranialen Blutung.

In diesem Fall wurde die Priorität für die Sichtung durch einen Radiologen erhöht. Entsprechend verkürzte sich die Zeit bis zur Sichtung von 512 auf 19 Minuten. Die Kontrolle durch einen Neuroradiologen bestätigte in 60 dieser 94 Fälle eine Blutung.

Tumore bei Kindern exakt klassifizieren

Ebenfalls mit einer kleineren Zahl klinischer Vergleiche wartet ein internationales Konsortium unter Leitung von Prof. Dr. Stefan M. Pfister vom Hopp-Kindertumor-Zentrum am NCT Heidelberg auf. In einer aktuellen Arbeit präsentiert die Gruppe einen Ansatz zur automatisierten Klassifikation von Tumoren des zentralen Nervensystems anhand ihrer DNA-Methylierung.

In einem prospektiven Vergleich mit internationalen Zentren wurde nach der Bewertung durch das KI-System in 12% der Fälle die Diagnose geändert.

KI in der Ophthalmologie

Vor allem in Fachgebieten, in denen bereits große Datenbanken mit digitalisierten Aufnahmen vorliegen, gibt es inzwischen KI-Studien. Die meisten, insgesamt 5, liegen aus der Ophthalmologie vor. Dr. Neil M. Bressler von der Retina-Fachabteilung der Johns Hopkins Universität in Baltimore, Maryland, hat gemeinsam mit Physikern der Hochschule ein sogenanntes neuronales Netzwerk auf die Erkennung von altersbedingter Makuladegeneration (AMD) trainiert.

Neuronale Netzwerke sind eine spezielle Form von KI, die häufig zur Verarbeitung von Bilddateien eingesetzt werden. Nach einem Training anhand von 130.000 Retina-Aufnahmen von 4.613 gesunden und erkrankten Patienten wurde das System unter anderem gegen einen erfahrenen Kliniker getestet. Während der Arzt eine Sensitivität von 0,864 und eine Spezifität von 0,932 erreichte, schaffte das trainierte neuronale Netzwerk Spitzenwerte von 0,846 bzw. 0,92.

Solche Algorithmen „können eine Screening-Funktion übernehmen, um Individuen zu identifizieren, die zum Management der AMD an einen Ophthalmologen überwiesen werden sollten“, schlussfolgern Bressler und seine Kollegen.

Einen ähnlichen Ansatz verfolgte eine Gruppe um Dr. Lily Peng von Google Inc. Sie trainierte 2 verschiedene KI-Systeme auf die Erkennung von diabetischer Retinopathie. Zwar erreichten Sensitivität und Spezifität Werte deutlich über 90%, trotzdem konstatieren die Autoren weiteren Forschungsbedarf, um die Anwendbarkeit in der Praxis zu überprüfen und einen echten Vergleich mit ophthalmologischen Diagnosen herzustellen.

Zu ähnlichen Ergebnissen kommt Dr. Kang Zhang mit einem chinesisch-amerikanischen Team, das OCT-Aufnahmen (OTC: optische Kohärenz-Tomografie) des Augenhintergrunds auf Anzeichen von AMD und diabetischem Makulaödem untersucht hat.

Neben diesen häufigen Indikationen stehen auch seltene Erkrankungen im Fokus der KI-Forscher. Eine Gruppe um Senior-Autor Dr. Michael F. Chiang von der Oregon Health and Science Universität in Portland nutzte neuronale Netzwerke, um Frühgeborenen-Retinopathie und Pluszeichen auf Retina-Fotografien zu erkennen. Nach einer Trainingsphase mit 5.511 Aufnahmen ließ die Gruppe ihr KI-System gegen 8 Fachleute mit jeweils mehr als 10 Jahren klinischer Expertise antreten. Bei diesem Test erkannte der Algorithmus die Retinopathie mit Pluszeichen besser als 6 der 8 Ärzte.

Eine umfassende KI-Studie zur Erkennung des angeborenen Katarakts haben Wissenschaftler des staatlichen Labors für Ophthalmologie in Guangzhou, China, vorgelegt. Dr. Erping Long und Dr. Haotian Lin und ihre Kollegen haben neuronale Netzwerke auf die Diagnose, Risiko-Stratifizierung und Therapieempfehlung für Kinder mit Cataracta congenita trainiert. Anhand einer Datenbank mit Testbildern haben sie ihre KI-Systeme in silico überprüft. Zusätzlich haben sie die Anwendbarkeit in einer Phase-1-Studie mit 3 nicht-spezialisierten Kliniken getestet.

EKG-Auswertung per KI

Eine deutlich alltagsnähere Anwendung ist die Auswertung von Echokardiogrammen. Prof. Dr. Rima Arnaout von der Universität von Kalifornien in San Francisco und ihre Kollegen haben ein neuronales Netzwerk genau darauf trainiert. Das Programm kann 15 Standardeinstellungen (12 Videosequenzen und 3 Standbilder) eines Patienten simultan bewerten.

In einem Labortest stellte das System in 91,7% der Fälle die richtige Diagnose, während zertifizierte Kardiologen nur 70,2 bis 84% der Test-Datensätze korrekt einschätzten.

Und: KI in der Dermatologie

Auf eine weitere gängige diagnostische Aufgabe zielen 2 Studien zur Klassifikation von Hautläsionen ab. Eine Gruppe um den Ingenieur Andre Esteva von der Stanford Universität in Kalifornien hat ein neuronales Netzwerk so programmiert, dass es Basalzell- und Plattepithelkarzinome von seborrhoischen Keratosen und maligne Melanome von Nävi unterscheiden kann.

Anschließend verglichen sie die Leistung ihres Systems mit der von 21 Dermatologen. Obwohl die Treffsicherheit der Ärzte deutlich variierte, lag das trainierte KI-System bei Spezifität und Sensitivität stets über der jedes einzelnen Dermatologen. Allerdings bewerteten sowohl der Computer als auch die Ärzte die Läsionen anhand von digitalen Aufnahmen und nicht am Patienten.

 
Die meisten Dermatologen wurden vom neuronalen Netzwerk übertroffen. Prof. Dr. Holger A. Hänssle
 

Prof. Dr. Holger A. Hänssle vom Universitätsklinikum Heidelberg hat mit Kollegen sogar 58 Dermatologen gegen einen trainierten Algorithmus antreten lassen, um Melanome zu diagnostizieren. Sie verglichen dabei 2 Szenarien: Einmal standen dem Dermatologen und dem KI-System nur Dermatoskop-Aufnahmen zur Verfügung. Die Fachärzte erreichten dann eine Sensitivität von 0,866 und eine Spezifität von 0,713. Das KI-System erreichte bei gleicher Sensitivität sogar eine Spezifität von 0,825.

In einem zweiten Szenario lagen neben den Bildern auch Informationen zum Patienten vor. Die Diagnosegenauigkeit der Ärzte stieg, aber auch hier war die Treffsicherheit des KI-Algorithmus höher. „Die meisten Dermatologen wurden vom neuronalen Netzwerk übertroffen“, resümieren Hänssle und Kollegen. „Unabhängig von der Erfahrung eines Arztes kann er von der Unterstützung durch die Bildklassifikation eines neuronalen Netzwerks profitieren.“

Metastasen-Erkennung: Besser als Pathologen unter Zeitdruck

Deutlich vorsichtiger äußern sich hingegen Babak Ehteshami Bejnordi und seine Kollegen aus den Niederlanden. Auch sie haben die Leistung von Fachärzten mit der mehrerer künstlich intelligenter Systeme verglichen. 11 Pathologen mussten hierfür innerhalb von 2 Stunden 129 angefärbte Gewebeschnitte von Lymphknoten auf Metastasen eines Mammakarzinoms untersuchen. Ein weiterer Arzt bewältigte diese Aufgabe ohne Zeitvorgabe.

Die Ärzte unter Zeitdruck schnitten in dieser Simulation deutlich schlechter ab als die besten Algorithmen. Diese wiederum waren ähnlich zuverlässig wie der Pathologe, der die Schnitte ohne Zeitdruck bewertete (Fläche unter der Kurve 0,96 bzw. 0,966). Trotzdem betonen Bejnordi und seine Kollegen: „Ob dieser Ansatz für die Praxis nützlich ist, muss in einem klinischen Setting bewertet werden.“

 

Kommentar

3090D553-9492-4563-8681-AD288FA52ACE
Wir bitten darum, Diskussionen höflich und sachlich zu halten. Beiträge werden vor der Veröffentlichung nicht überprüft, jedoch werden Kommentare, die unsere Community-Regeln verletzen, gelöscht.

wird bearbeitet....