Die Zahl an Einsatzmöglichkeiten für Algorithmen der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) nimmt zu – gerade in der Medizin. Umso wichtiger wird eine Standardisierung dieser Anwendungen. In PLOS Digital Health stellen Dr. Tyler J. Loftus von der University of Florida Health und Kollegen jetzt zusammen, welche Qualitätsstandards solche Tools haben sollten [1]:
Erklärbarkeit: Algorithmen sollten transparent zeigen, welche Parameter sie berücksichtigen – und wie ihr Ergebnis zustande kommt.
Präzision: Algorithmen sollten präzise, aber – soweit möglich – einfach programmiert werden. Zur Präzision gehört auch, Vitalparameter in sinnvollen zeitlichen Abständen zu erfassen.
Autonomie: Algorithmen sollten mit minimalem Input durch Ärzte oder Patienten funktionieren.
Fairness: Schon bei der Entwicklung der Algorithmen sollten Maßnahmen gegen eine technische Voreingenommenheit getroffen werden, etwa durch die Verwendung ausgewogene Trainingsdaten, ohne Diskriminierung bestimmter Patientengruppen. Wichtige Parameter sind das Alter, das Geschlecht, die Ethnie und viele mehr.
Reproduzierbarkeit: Eine externe Validierung von Algorithmen durch neutrale Wissenschaftler, die nicht an der Entwicklung selbst beteiligt waren, gilt auch als entscheidend.
Medizinische Daten auf Schritt und Tritt
Solche Empfehlungen kommen nicht aus heiterem Himmel. „Der Umfang und die Komplexität menschlicher Krankheiten stellen besondere Herausforderungen an die klinische Entscheidungsfindung“, schreiben Loftus und Kollegen. Beispielsweise umfasse die 10. Version der internationalen statistischen Klassifikation der Krankheiten (ICD-10) etwa 68.000 diagnostische Codes.
Patienten können nahezu jede Kombination dieser Diagnosen haben. Sie werden mit etlichen Kombinationen relevanter Therapien behandelt, deren Wirksamkeit von verhaltensbedingten, sozialen und genetischen Determinanten abhängt. Ärzte müssen klinische Entscheidungen treffen, meist unter Zeitdruck. Das werde angesichts einer zunehmenden Komplexität immer schwieriger, konstatieren die Autoren.
Doch Hilfe naht: Ein Mensch generiert im Laufe seines Lebens mehr als 1 Million Gigabyte an Gesundheitsdaten, etwa bei der Diagnostik oder bei der Abrechnung ärztlicher Leistungen mit Krankenkassen. Diese gewaltigen Datenmengen lassen sich kognitiv nicht mehr erfassen.
Genau hier kommen Algorithmen zum Zuge. Sie werden „trainiert“, in Daten bestimmte Muster zu erkennen:
Welche Patienten-Subgruppe mit Erkrankungen des rheumatischen Formenkreises hat beispielsweise ein hohes Progressionsrisiko – und wo macht „watchful waiting“ Sinn?
Welche Zweitlinientherapie eignet sich bei bestimmten malignen Erkrankungen mit Rezidiv am besten?
Algorithmen ermöglichen Prognosen zur Morbidität und zur Mortalität bei unterschiedlichen Behandlungsstrategien. Dementsprechend steigt die Zahl an Studien, was Loftus und Kollegen dazu veranlasst hat, Qualitätskriterien für Algorithmen vorzuschlagen.
Experte bestätigt Handlungsbedarf
„Die Autoren rücken einige der ‚Schmerzpunkte‘ der KI-Forschung ins Licht, zum Beispiel Reproduzierbarkeit und Interpretierbarkeit, beides sehr aktive Forschungsfelder in der KI-Forschung“, so Dr. Anton Becker. Er ist Director of Analytics, Body Imaging Service am Memorial Sloan Kettering Cancer Center, New York. Becker: „Einige Kategorien sind etwas schwammig definiert, und auch sind nicht alle immer zwingend notwendig – in der Notfalldiagnostik liegt oft nur ein einziger Zeitpunkt vor, und der Verlauf ist fürs Erste weniger wichtig. Im Großen und Ganzen ergeben die Kategorien aber Sinn und sind ein guter Leitfaden.“
Auf die Frage, inwiefern methodische oder generelle Schwächen bei Studien zu KI in der Medizin ein Problem sind, entgegnet der Experte: „Ich glaube, dies ist nicht nur auf das Forschungsgebiet KI beschränkt: Es ist in jedem Feld relativ einfach, schnell eine Studie mit niedriger Qualität zu publizieren.“ KI in der Medizin habe vor einigen Jahren eine Renaissance erlebt, folglich habe auch die Zahl der guten und schlechteren Studien zugenommen.
KI – ein Zukunftsthema in der Medizin
Becker jedenfalls sieht große Potenziale: „Erste KI-Anwendungen sind bereits im Einsatz, diese tragen zum Beispiel zur Verbesserung der Bildqualität oder Verkürzung der Untersuchung in der Computertomografie (CT) oder in der Magnetresonanztomografie (MRT) bei.“ Andere Beispiele seien zeitaufwändige Arbeiten wie die Organsegmentierung, etwa von Herzkammern bei der Herz-MRT, welche durch KI schnell und zuverlässig erledigt werden könnten.
„Die Hürden, dass KI autonom Diagnosen stellt, sind relativ hoch“, erklärt Becker. „Wie die Pandemie deutlich gezeigt hat, benötigt es trotz aller logisch bestechlichen und biologisch plausiblen Ansätze immer gute, randomisierte und verblindete klinische Studien, um den Nutzen einer Maßnahme zu beweisen.“ Das gelte für die Medikamenten- und Impfstoffentwicklung, aber auch für neue diagnostischen Verfahren oder Operationen.
Trotz aller Skepsis kennt der Experte auch Erfolgsgeschichten. „In der Schlaganfall-Diagnostik gibt es bereits zugelassene Software, die selbstständig Bilddaten auswertet und Alarm schlagen kann“, so Becker. „Dies ist besonders in Gebieten mit Mangel an Spezialisten hilfreich, kann aber auch im Normalfall kostbare Zeit sparen.“
Credits:
© Elnur
Lead Image: Dreamstime
Medscape Nachrichten © 2022 WebMD, LLC
Diesen Artikel so zitieren: Gute oder schlechte Künstliche Intelligenz für Patientendaten? Auf diese Qualitätskriterien sollten Ärzte künftig achten - Medscape - 25. Jan 2022.
Kommentar