Künstliche Intelligenz bringt bereits in vielen Bereichen der Medizin enorme Verbesserungen – sei es in Forschung, Diagnostik oder Therapie. Einige Experten weisen jedoch darauf hin, dass systematische Fehler und Verzerrungen beim Einsatz dieser Tools zu wenig beachtet werden könnten. Sie warnen, dass dies sogar zu schädlichen Entscheidungen in der Patientenversorgung führen könnte. Eine aktuelle Studie belegt diese Befürchtungen [1].
Übermenschliche Fähigkeiten
Stellen Sie sich vor, Sie besuchen die Staatsbibliothek in Berlin mit ihren Millionen Büchern und möchten alle lesen. Sie wissen, dass das unmöglich ist. Und selbst wenn Sie jedes Wort eines jeden Werkes lesen könnten, würden Sie nicht alles behalten oder verstehen, auch wenn Sie sich Ihr ganzes Leben lang Zeit nähmen.
Nehmen wir nun aber weiter an, Sie hätten ein Superhirn, das all diese Informationen lesen und verstehen könnte. Dann hätten Sie immer noch ein Problem: Sie wüssten nicht, was in diesen Büchern nicht behandelt wurde, welche Fragen nicht beantwortet wurden und wessen Erfahrungen ausgelassen wurden.
In ähnlicher Weise müssen Mediziner heute eine schwindelerregende Menge an Daten durchsuchen. Allein Pubmed listet mehr als 34 Millionen Einträge. Und das sind nur die Artikel, die einem Peer Review unterzogen wurden. In Millionen weiterer Datensätze wird untersucht, wie sich etwa Faktoren wie Blutuntersuchungen, die medizinische und die familiäre Vorgeschichte, Genetik und sozioökonomische Merkmale auf die Krankheitsverläufe der Menschen auswirken.
Durch den Einsatz künstlicher Intelligenz (KI) lässt sich heute mehr von diesem Material nutzen als jemals zuvor. Neue Modelle können enorme Datenmengen schnell und präzise zusammenfassen, mögliche Verläufe individuell vorhersagen und ärztlich Tätigen dabei helfen, Entscheidungen über Behandlungen oder Präventivmaßnahmen zu treffen.
Prädiktive Algorithmen sind sehr vielversprechende Tools. Einige können Brustkrebs mit einer höheren Genauigkeit diagnostizieren als Pathologen. Andere KI-Tools werden bereits im medizinischen Bereich eingesetzt und ermöglichen es den Behandelnden, Krankengeschichten schneller abzurufen oder ihre Fähigkeiten bei der Analyse von Röntgenbildern zu verbessern.
Einige Experten auf dem Gebiet der künstlichen Intelligenz in der Medizin (AIM) weisen jedoch darauf hin, dass die scheinbar offensichtlichen Vorteile durch wenig beachtete systematische Fehler und Verzerrungen beim Einsatz dieser Tools untergraben werden könnten. Sie warnen sogar davor, dass solche Verzerrungen zu ineffektiven oder gar schädlichen Entscheidungen in der Patientenversorgung führen können.
Dieselben Fehler auch bei neuen Tools?
Die meisten werden bei „Bias“ wohl an so etwas wie eine tendenzielle Einseitigkeit durch etwa persönliche oder ethnische Faktoren denken. Doch dieses Bias ist im weitesten Sinne eine Tendenz, eine Neigung in eine bestimmte Richtung für oder gegen eine Sache.
Im statistischen Sinne liegt ein Bias vor, wenn die Daten die Bevölkerung, die sie modellieren sollen, nur unvollständig und ungenau abbilden. Dies kann passieren, wenn von Beginn an die Datenerhebung nicht gut war oder wenn etwa Daten aus einer Population fälschlicherweise auf eine andere übertragen werden.
Beide Arten des Bias – statistische und ethnische – kommen in der medizinischen Literatur vor. Einige Bevölkerungsgruppen sind stärker untersucht worden, während andere unterrepräsentiert sind. Das wirft die Frage auf: Wenn wir KI-Modelle auf der Grundlage der vorhandenen Informationen erstellen, übertragen wir dann nur alte Fehler und Probleme auf neue Technologien? „Das ist definitiv ein Problem“, meint Dr. David M. Kent, Direktor des Predictive Analytics and Comparative Effectiveness Center am Tufts Medical Center.
Kent untersuchte mit seinem Team 104 klinische Prognosemodelle für kardiovaskuläre Erkrankungen, die klinische Entscheidungsfindungsprozesse in der Prävention unterstützen sollen. Die Forschenden wollten feststellen, ob die Modelle, die zuvor gut funktioniert hatten, auch in einer neuen Patientengruppe gut abschneiden würden.
Ergebnisse schlechter als erwartet
Die Modelle „schnitten schlechter ab, als es zu erwarten gewesen war“, sagte Kent. So konnten nicht zuverlässig Hochrisikopatienten von Personen mit geringerem Risiko unterschieden werden. Manchmal über- oder unterschätzten die Tools ein Krankheitsrisiko. Ein wenig alarmierend war, dass die meisten Modelle auch ein Schädigungspotenzial aufwiesen, das sich in einer realen klinischen Umgebung offenbaren könnte.
Wie kam es, dass die Modelle bei den ursprünglichen Tests so viel besser abschnitten als heute? „Vorhersagemodelle lassen sich weniger gut verallgemeinern, als man vielleicht glaubt“, sagt Kent. Wenn man ein Modell von einer Datenbank auf eine andere überträgt oder wenn sich die Dinge im Laufe der Zeit (von einem Jahrzehnt zum anderen) oder räumlich ändern (von einer Stadt zur anderen), kann das Modell diese Unterschiede nicht integrieren.
Dies führt zu statistischen Verzerrungen, zu einem Bias. Infolgedessen repräsentiert das Modell nicht mehr die neue Patientenpopulation in ausreichender Weise und damit funktioniert es möglicherweise auch nicht mehr so gut.
Das bedeute nicht, dass KI im Gesundheitswesen nicht eingesetzt werden solle, sagt Kent. Aber es zeige, warum die Kontrolle durch Menschen so wichtig ist. „Die Studie zeigt nicht, dass diese Modelle besonders schlecht sind“, sagt Kent. „Sie zeigt jedoch eine allgemeine Schwachstelle von Modellen auf, die versuchen, absolute Risiken vorherzusagen. Sie zeigt, dass eine bessere Überprüfung und Aktualisierung der Modelle erforderlich ist.“
Doch auch die menschliche Kontrolle hat ihre Grenzen, wie die Forschenden in einem neuen Papier anmerken, in dem sie sich für ein standardisiertes Verfahren aussprechen. Ohne einen solchen Rahmen ließen sich nur Verzerrungen finden, nach denen gesucht werde. Auch hier gelte: Wir wissen nicht, was wir nicht wissen.
Bias in der „Black Box“
Beim Thema Ethnie fließen physische, verhaltensbezogene und kulturelle Merkmale mit ein. Sie ist in vielen Gesundheitssystemen eine wesentliche Variable und ein kompliziertes Konzept. Bei der Berücksichtigung des Faktors Ethnie in Vorhersagealgorithmen können Probleme auftreten. Zwar gibt es gesundheitsbezogene Unterschiede zwischen bestimmten Ethnien, doch kann nicht davon ausgegangen werden, dass alle Menschen in einer Gruppe das gleiche Outcome haben werden.
Dr. David S. Jones, Professor für Kultur und Medizin an der Harvard University und Mitverfasser von „Hidden in Plain Sight - Reconsidering the Use of Race Correction in Algorithms“, wies auf Folgendes hin: „Viele dieser Tools [analoge Algorithmen] scheinen die Ressourcen des Gesundheitswesens auf weiße Menschen auszurichten.“ Etwa zur gleichen Zeit wurden ähnliche Verzerrungen in KI-Tools von den Forschenden Dr. Ziad Obermeyer und Dr. Eric Topol festgestellt.
Die mangelnde Vielfalt in klinischen Studien, welche Einfluss auf die Patientenversorgung nehmen, ist schon seit Längerem ein bekanntes Problem. Laut Jones besteht nun die Sorge, dass die Verwendung dieser Studien zur Erstellung von Vorhersagemodellen diese Verzerrungen nicht nur weiterträgt, sondern sie auch noch undurchsichtiger und schwerer erkennbar macht.
Vor den Anfängen der KI waren analoge Algorithmen die einzige Option. Solche Vorhersagemodelle wurden nicht automatisch, sondern von Hand errechnet. „Bei der Verwendung eines analogen Modells“, sagt Jones, „kann man sich die Informationen leicht ansehen und genau wissen, welche Patienteninformationen, wie z.B. die Ethnie, berücksichtigt wurden und welche nicht.“
Bei den KI-Tools kann der Algorithmus jedoch verborgen sein. Die Daten bleiben für den Benutzer unsichtbar und können auch nicht geändert werden. Es ist eine Blackbox. Das ist ein Problem, denn die Nutzenden wissen möglicherweise nicht, welche Patienteninformationen einbezogen wurden und/oder in welcher Weise diese Daten die Empfehlungen der KI beeinflussen.
„Wenn wir in der Medizin nach Ethnien unterscheiden, muss das völlig transparent sein, damit wir die Ergebnisse verstehen und ein fundiertes Urteil fällen können, ob der Einsatz angemessen ist“, sagt Jones. „Die Frage, die dabei beantwortet werden muss, ist: Wie und wo lässt sich eine Kennzeichnung der Ethnie so einsetzen, dass sie Gutes bewirkt und keine Schäden anrichtet.“
KI in der klinischen Versorgung – Anlass zur Sorge?
Trotz der Flut von KI-Forschungsergebnissen wurden die meisten klinischen Modelle noch nicht in der Praxis eingesetzt. Wenn jedoch Fragen oder Sorgen über deren Einsatz bestehen, sollte man sich aktiv um Klärung beim jeweiligen Anbieter bemühen, empfiehlt Jones. Man könne etwa fragen: „Basiert die Behandlungsempfehlung auf einem bestimmten Verständnis einer ethnischen Zugehörigkeit?“ Dies kann dann in ein Gespräch über den Entscheidungsfindungsprozess des Anbieters münden.
Unterdessen herrscht unter den Fachpersonen Einigkeit darüber, dass es Probleme im Zusammenhang mit statistischen und ethnischen Verzerrungen bei der AIM gibt, und dass diese gelöst werden müssen, bevor die Tools breite Anwendung finden.
„Die wirkliche Gefahr besteht darin, dass Riesenbudgets in neue Unternehmen fließen, die Prognosemodelle entwickeln und dann unter Druck stehen, eine gute Rendite erzielen zu müssen“, sagt Kent. „Das könnte zu Konflikten durch die Verbreitung unausgereifter oder unzureichend getesteter Modelle führen. Darunter könnte die Versorgungsqualität leiden, anstatt sich zu verbessern.“
Vorerst scheint Einigkeit unter den KI-Forschenden darüber zu herrschen, dass mehr Standardisierung und Aufsicht geschaffen werden sollte und die Kommunikation unter den Einrichtungen, welche die Forschung zur Patientenversorgung betreiben, verbessert werden müsse. Doch wie dies alles am besten umgesetzt werden solle, ist ungewiss.
Dieser Artikel wurde von Markus Vieten aus www.medscape.com übersetzt und adaptiert.
Fanden Sie diesen Artikel interessant? Hier ist der Link zu unseren kostenlosen Newsletter-Angeboten – damit Sie keine Nachrichten aus der Medizin verpassen.
Credits:
Photographer: © ProductionPerig
Lead image: Dreamstime.com
Medscape Nachrichten © 2022
Diesen Artikel so zitieren: KI schlechter als erwartet: Studie belegt Befürchtung, dass systematische Fehler zu Entscheidungen führen, die Patienten schaden - Medscape - 17. Aug 2022.
Kommentar