Vor ein paar Wochen bestand ChatGPT die United States Medical Licensing Examination (USMLE), die Zulassungsprüfung für Ärzte in den USA. Mit Bravour hat der Chatbot ein Mikrobiologie-Quiz gemeistert, das der Mikrobiologe Dr. Alex Berezow entworfen hatte. Laut Berezow waren die 10 Fragen für eine Abschlussprüfung auf College-Niveau geeignet. Und an der Universität Stanford hat ein nicht unerheblicher Anteil der Studenten ChatGPT bei ihren Abschlussprüfungen eingesetzt.
„Letztlich zeigen die Ergebnisse, dass große Sprachmodelle – auf denen ChatGPT trainiert wurde – das Potenzial haben, bei der medizinischen Ausbildung und sogar bei der klinischen Entscheidungsfindung zu helfen“, bilanzierten Dr. Tiffany H. Kung von der Harvard School of Medicine, Boston, Massachusetts, und ihre Kollegen, die in ihrem Preprint das Abscheiden von ChatGPT in der USMLE untersucht hatten.
Chatbots, Textgenerierung, Übersetzung, automatisierte Schreibarbeiten: Seitdem das US-Start-up OpenAI im November 2022 seinen Chatbot-Prototypen ChatGPT der Öffentlichkeit kostenlos zugänglich gemacht hat, sorgt das textbasierte Dialogsystem angesichts seiner Leistungsfähigkeit für einen regelrechten Hype. Schätzungen zufolge verzeichnete OpenAI schon Anfang Februar über 100 Millionen Nutzer.
Weil ChatGPT viele Lebensbereiche und Branchen nachhaltig verändern wird, weckt es weltweit Hoffnungen und Sorgen. Die Verunsicherung ist groß. Der Schulbezirk New York hat jetzt den Einsatz von ChatGPT verboten. Eine richtige Entscheidung? Wissenschaftler der TU München und der LMU halten das Verbot für den „falschen und zu bequemen Weg“. In einem Positionspapier zeigen sie auf, dass Sprachmodelle wie ChatGPT auch zu mehr Bildungsgerechtigkeit führen können.
Prof. Dr. Enkelejda Kasneci, Koordinatorin des Positionspapiers, nennt die Entwicklung von Sprachmodellen wie ChatGPT einen „technologischen Meilenstein“ und stellt klar: „Ein Zurück wird es nicht geben. Die Tools sind in der Welt, sie werden besser werden, und wir müssen lernen, sie konstruktiv zu nutzen.“
Schon jetzt nützliche Vorlagen für Patienteninformation & Co
In der Entwicklung der modernen Sprachmodelle passiert im Moment viel, bestätigte Prof. Dr. Dr. Jens Kleesiek, Mediziner und Informatiker am Institut für Künstliche Intelligenz in der Medizin (IKIM) des Universitätsklinikums Essen, auf dem Event „ChatGPT im Gesundheitswesen“ [1] . „Da geht es Schlag auf Schlag.“ Nicht nur OpenAI mit ChatGPT, auch Google ist immer wieder prominent vertreten und hat als direkte Antwort auf ChatGPT seinen Chatbot Bard angekündigt.
Es lohnt sich, einen OpenAI-Account zu erstellen und selbst auszuprobieren, inwieweit der Chatbot jetzt schon eine Hilfe für das Verfassen von Arztbriefen, Patienteninformationen und die Beantwortung von Patientenbeschwerden sein kann. Wichtig dabei sind möglichst präzise formulierte Prompts (Eingaben) und das anschließende Prüfen und Korrigieren der Antworten.
Auf Promptbase findet man Anleitungen und kann fertige Prompts kaufen. Wer damit herumexperimentiert, stellt fest, dass ChatGPT schon jetzt überraschend nützliche Vorlagen liefert.
Eine der Fragen aus Berezows Mikrobiologie-Quiz lautete z.B.: „Ein Patient der Notaufnahme kommt mit starken Kopfschmerzen und steifem Nacken. Der Arzt ordnet eine Lumbalpunktion an, um Liquor zu entnehmen. Eine Gram-Färbung des Liquors zeigt das Vorhandensein von gramnegativen Diplokokken. Wie lautet die Diagnose?“
ChatGPT antwortete korrekt: „Auf der Grundlage der von Ihnen bereitgestellten Informationen zeigt die Gram-Färbung des Liquors das Vorhandensein von gramnegativen Diplokokken, bei denen es sich um Bakterien handelt, die typischerweise oval geformt sind und in Paaren auftreten. Dieser Befund steht im Einklang mit der Diagnose einer Meningitis.“
Kein Freibrief: ChatGPT weist noch immer Limitationen auf
Antworten wie diese lassen schnell vergessen, dass es sich auch bei moderner KI nicht um Intelligenz im umgangssprachlichen Sinn handelt, sondern um Mustererkennung und Sätze, die auf Grundlage von Wahrscheinlichkeitsberechnungen zusammengesetzt wurden. Entsprechend ist ChatGPT limitiert.
OpenAI weist selbst darauf hin, dass ChatGPT zwar plausibel klingende, aber eben auch falsche oder unsinnige Antworten generiert. Auch reagiert das Modell empfindlich auf Änderungen in der Eingabe oder auf mehrfache Versuche mit der gleichen Eingabeaufforderung.
Nicht zuletzt antwortet ChatGPT oft weitschweifig, gebraucht bestimmte Formulierungen zu häufig und verwendet auch gerne Floskeln. „Das alles sind Dinge, die wir in der Medizin nicht haben wollen“, betonte Kleesiek.
Unbekannte Quellen bei ChatGPT
Eine nicht unerhebliche Einschränkung ist auch, dass man bislang noch nicht erfährt, auf welche Quellen die KI für eine bestimmte Antwort zurückgreift, wie Prof. Dr. Ute Schmid auf der Veranstaltung „ChatGPT und andere Sprachmodelle – zwischen Hype und Kontroverse“ erinnerte [2]. Schmid leitet die Arbeitsgruppe Kognitive Systeme an der Informatik-Fakultät der Universität Bamberg.
Die Limitationen des Sprachmodells stellen nach Einschätzung Kleesieks für das Beispiel Arztbrief folgende Herausforderungen dar:
Fakten müssen zuverlässig und prägnant übermittelt werden.
Patientensicherheit: Stimmen das vorgeschlagene Medikament und die Dosierung?
Spart die Verwendung von ChatGPT beim Verfassen tatsächlich Zeit (muss gut in den Workflow integriert sein)?
Fragen zur Haftung, zum Datenschutz und zum Copyright.
In einem Kommentar in Nature führen Prof. Dr. Claudi L. Bockting von der Abteilung für Psychiatrie an der Universität Amsterdam und ihre Kollegen 5 Aspekte auf, die in der weiteren Entwicklung und Forschung zu ChatGPT berücksichtigt werden sollten:
Festhalten an der Überprüfung der Antworten durch den Menschen;
Regeln für die Verantwortlichkeit entwickeln;
in wirklich offene Sprachmodelle investieren (je nachdem, wie die Modelle trainiert sind, ist ein gewisser Bias seitens des Herstellers enthalten; potenzielles Target für Meinungsmache);
die Vorteile von AI nutzen;
die Debatte ausweiten & sich kritisch mit der Technologie auseinandersetzen.
Kleesiek sieht für ChatGPT und Konsorten sehr viele Anwendungsmöglichkeiten in der Medizin, u.a.:
Strukturierung von Daten (retrospektiv/während der Eingabe);
Filtern von Daten;
Zusammenfassung der Krankengeschichte (Voraussetzung ist Verlässlichkeit);
Erhebung der Anamnese (interaktiv mit dem Patienten);
Informationsvermittlung in angepasster Sprache;
„Übersetzung“ von Befunden;
Literaturrecherche;
Ersatz für (einige) Konversationen mit dem Pflegepersonal?;
Nutzung für das Medical Writing;
Verknüpfung mit generativen Bildmodellen.
Die Kombination von ChatGPT mit anderen KI-Algorithmen in der Medizin stuft Kleesiek als „sehr spannend“ ein. In einer vor Kurzem in Radiology erschienenen Arbeit wurde untersucht, inwieweit ChatGPT die Interpretierbarkeit von Computerassistierter Diagnostik (CAD) in der Mammografie verbessern kann. Durch die Integration von ChatGPT in ein CAD-System können Fragen zu bestimmten Patienten oder Bildern gestellt werden. Das Wissen der KI kann auch dazu genutzt werden, um datengestützte Erkenntnisse über bestehende Leitlinien zu gewinnen und potenziell neue bildbasierte Biomarker zu entdecken.
„Beim Einsatz von KI-basierten Technologien wie ChatGPT ist es wichtig, vorsichtig vorzugehen“, schreiben die Studienautoren. Trotz der Herausforderungen sehen sie in der Technologie für die Unterstützung klinischer Entscheidungen und sogar für die Zweckmäßigkeit der Bildgebung ein „großes Potenzial“.
Zwei Anwendungen, die in Essen untersucht werden
Kleesiek stellte 2 Arbeiten aus Essen vor, für die Transformer-Sprachmodelle aus derselben Kategorie wie GPT3 genutzt wurden. In der ersten Studie wurde das Sprachmodell genutzt, um bestimmte Informationen schnell in Befundtexten zu finden. Als Prompt dient z.B. der Satz „Hat der Patient eine Infektion?“
„Man sieht, dass das Modell dann nicht frei antwortet, sondern nachvollziehbar. Wir highlighten dann diese Informationen im Text, um entsprechende Nachvollziehbarkeit und eine gewisse Verlässlichkeit zu bekommen“, erklärte Kleesiek. So lasse sich nachvollziehen, dass eben nicht halluziniert oder fabuliert wird, sondern dass die Antworten auf Tatsachen beruhen.
Die Studie „Information Extraction from Weakly Structured Radiological Reports with Natural Language Queries” ist derzeit im Review.
In einer weiteren, bereits publizierten Studie wurde das Therapieansprechen in radiologischen Befunden bewertet. Die Idee ist, dass die Technologie der Chatbots oder Sprachmodelle bei einer komplexen Krankengeschichte eingesetzt werden kann, um eine Zusammenfassung der kompletten Patienten-Historie zu liefern.
„Hier ging es darum, ob bei einer Tumorerkrankung eine Verschlechterung vorliegt oder eine Verbesserung oder ein teilweises Ansprechen der Therapie. Wir fanden heraus, dass bei eindeutigen Befunden die Maschine genauso gut ist wie Radiologen“, erklärte Kleesiek.
„Doch was ist mit uneindeutigen Befunden? Uneindeutig wäre z.B., wenn ein Patient eine Läsion in der Lunge hat und eine in der Leber, die eine wird größer, die andere wird kleiner.“ Damit tue sich auch der Radiologe schwerer als mit eindeutigen Befunden. „Wir haben aber gesehen, dass die Beurteilungs-Performance der Maschine bei uneindeutigen Befunden deutlich stärker sinkt als die des Radiologen. Das muss man entsprechend kritisch betrachten“, betonte Kleesiek.
Noch nicht reif für den Einsatz in der Klinik
Schmid will nun untersuchen, ob sich ChatGPT dazu nutzen lässt, „Named Entity Recognition“ in Arztbriefen einzusetzen. „Named Entity Recognition“ ist Teil der Computerlinguistik: Ihr Ziel ist es, benannte Entitäten in Texten automatisiert zu erkennen und vordefinierten Kategorien zuzuordnen.
Tatsächlich seien die Informationen, die in Arztbriefen stecken, nicht so leicht zugreifbar, weil diese nicht strukturiert in digitaler Form vorliegen. „Uns mag das nicht als schwieriges Problem vorkommen. Einem Arztbrief entnehmen wir die Diagnose, ob es sich bei dem Patienten um Frau oder Mann handelt, ob Vorerkrankungen vorliegen, ein Facharzt in die Behandlung eingebunden ist und vieles mehr.“ Der entscheidende Unterschied aber ist: Menschen verarbeiten semantisch, ChatGPT und ähnliche Modelle hingegen basieren auf Mustererkennung und auf Musterverarbeitung, erklärte Schmid.
„Da wird noch viel kommen“, ist sich Kleesiek bei den Entwicklungen von ChatGPT und anderen Sprachmodellen sicher. Er stellte aber auch klar, dass ChatGPT, so wie es aktuell funktioniere, noch nicht reif für den Einsatz in der Klinik sei.
Schmid hält die sozio-technische Einbettung für einen wichtigen Aspekt. „Ich glaube, ChatGPT bietet große Chancen für die Medizin“. Man solle aber z.B. nicht in Erwägung ziehen, das Tool als Chatbot zu nutzen, der Teenager mit Liebeskummer berät. „Wenn man dann eingibt: ‚Ich fühle mich so schlecht, ich möchte mich umbringen.‘ Dann sagt GPT-3: ‚Das tut mir leid zu hören. Ich kann dir dabei helfen. […]‘“, warnte Schmid.
Für den – als Antwort auf eine geäußerte Suizidabsicht – fatalen Satz „Ich kann dir dabei helfen“ ist die Mustererkennung verantwortlich, auf der ChatGPT und andere Sprachmodelle basieren. Chatbots werden im Netz größtenteils für Verkaufsberatungsgespräche eingesetzt und auf „I want“ folgt eben am häufigsten „I can help“, insofern ist „Ich kann dir (dabei) helfen“ die logische Fortsetzung.
Fanden Sie diesen Artikel interessant? Hier ist der Link zu unseren kostenlosen Newsletter-Angeboten – damit Sie keine Nachrichten aus der Medizin verpassen.
Credits:
Photographer: © Waingro
Lead image: Dreamstime.com
Medscape Nachrichten © 2023
Diesen Artikel so zitieren: Zwischen Hype und Horror: Was die künstliche Intelligenz ChatGPT für die Medizin bringt – Hilfe bei lästiger Schreibarbeit? - Medscape - 15. Feb 2023.
Kommentar