Mit Aufkommen der künstlichen Intelligenz (KI) werde die Ära der doppelten Befundung von Mammogrammen wahrscheinlich zu Ende gehen, sagt Prof. Dr. Liane Philpotts, Professorin für Radiologie und biomedizinische Bildgebung an der Yale University in New Haven. Der Grund dafür sei, dass sich künstliche Intelligenz bei der Interpretation von Mammogrammen als ebenso gut erweise wie der Mensch, zumindest in der Forschung.
Neue Daten zur Bewertung von KI-Systemen
In einer Studie, die in Radiology veröffentlicht worden ist, stellten britische Forscher fest, dass die Leistung eines kommerziellen KI-Systems (INSIGHT MMG Version 1.1.7.1 - Lunit) im Wesentlichen mit der von über 500 spezialisierten Fachkräften vergleichbar ist [1]. Die Ergebnisse stehen im Einklang mit anderen KI-Studien.
Die doppelte Befundung von Mammografien, also die Befundung durch 2 Ärzte, um Brustkrebs besser zu erkennen, ist im Vereinigten Königreich, in Deutschland und in anderen europäischen Ländern üblich.
Die Studie im Überblick
Das britische Team hat die Leistung von 552 Fachkräften mit dem KI-Programm von Lunit beim sogenannten „Personal Performance in Mammographic Screening“ verglichen. Diese Maßnahme zur Qualitätssicherung müssen Fachkräfte, die Mammografien bewerten, im Vereinigten Königreich 2-mal pro Jahr durchlaufen. Teilnehmende bewerten 60 schwierige Fälle, eine Mischung aus normalen Mammografien und Aufnahmen mit gutartigen sowie mit bösartigen Läsionen, mit einem Malignitäts-Score.
Die Studie selbst umfasste 2 Testsitzungen mit insgesamt 120 Brustuntersuchungen. 57% der Teilnehmer waren zertifizierte Radiologen, 37% Röntgenassistenten und 6% klinische Brustspezialisten. Jeder von ihnen erstellt und bewertet mindestens 5.000 Mammografien pro Jahr. Es gab keinen Unterschied in der Gesamtleistung zwischen dem KI-Programm und den menschlichen Begutachtern (AUC 0,93 vs. 0,88, p = 0,15).
Die Arbeitsbelastung in der Radiologie verringern
In einem Editorial, das zusammen mit der Studie veröffentlicht worden ist, schreibt Philpotts, die Ergebnisse würden „darauf hindeuten, dass die KI getrost als 2. Gutachter fungieren könnte, um die Arbeitsbelastung zu verringern“ [2].
In den Vereinigten Staaten wird meist keine Doppelbefundung durchgeführt. Philpotts wies darauf hin, dass „viele US-Radiologen, die Mammografien interpretieren, nicht spezialisiert sind“. Sie würden keine große Zahl an Aufnahmen pro Jahr interpretieren.
Daher könnte das in der Studie untersuchte KI-System als zusätzliches Hilfsmittel eingesetzt werden, um die Leistung von Radiologen in Ländern zu verbessern, in denen keine doppelte Befundung vorgesehen sei.
Es gab keinen Unterschied in der Sensitivität zwischen der KI und der menschlichen Begutachtung (84% vs. 90%; p = 0,34), aber der KI-Algorithmus hatte eine höhere Spezifität (89% vs. 76%; p = 0,003).
Bei Verwendung von speziellen KI-Recall-Scores, welche der durchschnittlichen Leistung von Menschen entsprachen (90% Sensitivität, 76% Spezifität), gab es keinen Unterschied zwischen KI und menschlichen Begutachtern in Bezug auf Sensitivität (91%; p = 0,73) oder Spezifität (77 %; p = 0,85). Die Forscher stellten jedoch fest, dass die Aussagekraft der Analyse begrenzt gewesen ist.
Insgesamt sei die „diagnostische Leistung der KI mit der des durchschnittlichen menschlichen Lesers vergleichbar“, schreiben die Autoren der Studie um Dr. Yan Chen vom Nottingham Breast Institute in England. „Es wird immer wahrscheinlicher, dass KI bei der Interpretation von Screening-Mammografien eine Rolle spielen wird.“
„Dass das KI-System in der Lage war, die Leistung des durchschnittlichen Gutachters in dieser spezialisierten Gruppe von Mammografie-Lesern zu erreichen, zeigt die Robustheit dieses Algorithmus“, so Philpotts.
Herausforderung dichtes Brustgewebe
Es gibt jedoch auch Vorbehalte gegenüber den Studienergebnissen. Das KI-System wurde für die 2D-Mammografie entwickelt, die im Vereinigten Königreich derzeit Standard ist, während in den Vereinigten Staaten und in Ländern Europas die digitale Brusttomosynthese (DBT) mehr und mehr die 2D-Mammografie ersetzt.
„In den Vereinigten Staaten sind für die DBT spezifische KI-Algorithmen erforderlich, die zuverlässig und reproduzierbar sein müssen, um von den Radiologen angenommen zu werden“, so Philpotts.
Auch im Vereinigten Königreich wird das Screening bei Frauen im Alter von 50 bis 70 Jahren in 3-Jahres-Intervallen durchgeführt, was bedeutet, dass in der Studienpopulation einige älteren Frauen mit weniger dichtem Brustgewebe zu finden waren. In den Vereinigten Staaten beginnt das Screening in der Regel früher und schließt prämenopausale Frauen mit dichterem Brustgewebe ein.
Eine Studie aus Korea, wo viele Frauen dichteres Brustgewebe haben, ergab, dass die 2D-Mammografie und der zusätzliche Ultraschall bei der Krebserkennung besser abschneiden als die KI. „Dies unterstreicht die Herausforderungen bei der Erkennung von Krebs in dichten Brüsten, die sowohl Radiologen als auch die künstliche Intelligenz plagen“, schreibt Philpotts. Die Brustdichte sei ein wichtiger Faktor, der zur Bewertung der Leistung der künstlichen Intelligenz heranzuziehen sei.
Der Beitrag wurde von Michael van den Heuvel übersetzt aus Medscape.com .
Fanden Sie diesen Artikel interessant? Hier ist der Link zu unseren kostenlosen Newsletter-Angeboten – damit Sie keine Nachrichten aus der Medizin verpassen.
Credits:
Photographer: © Picture Partners
Lead Image: Dreamstime
Medscape Nachrichten © 2023 WebMD, LLC
Diesen Artikel so zitieren: KI bewährt sich bei Mammografie als 2. Gutachter und könnte ärztliche Doppelbefundung bald ersetzen - Medscape - 19. Sep 2023.
Kommentar