Jun 08, 2023
Grundlagenmodelle für generalistische medizinische künstliche Intelligenz
Naturband 616, Seiten
Nature Band 616, Seiten 259–265 (2023)Diesen Artikel zitieren
92.000 Zugriffe
5 Zitate
638 Altmetrisch
Details zu den Metriken
Die außerordentlich schnelle Entwicklung hochflexibler, wiederverwendbarer Modelle der künstlichen Intelligenz (KI) dürfte zu neuen Möglichkeiten in der Medizin führen. Wir schlagen ein neues Paradigma für medizinische KI vor, das wir als generalistische medizinische KI (GMAI) bezeichnen. GMAI-Modelle werden in der Lage sein, eine Vielzahl von Aufgaben mit sehr wenigen oder keinen aufgabenspezifischen gekennzeichneten Daten auszuführen. GMAI basiert auf der Selbstüberwachung großer, vielfältiger Datensätze und interpretiert flexibel verschiedene Kombinationen medizinischer Modalitäten, einschließlich Daten aus Bildgebung, elektronischen Gesundheitsakten, Laborergebnissen, Genomik, Grafiken oder medizinischen Texten. Die Modelle wiederum erzeugen ausdrucksstarke Ergebnisse wie Freitexterklärungen, gesprochene Empfehlungen oder Bildanmerkungen, die fortgeschrittene medizinische Denkfähigkeiten demonstrieren. Hier identifizieren wir eine Reihe wirkungsvoller potenzieller Anwendungen für GMAI und legen spezifische technische Fähigkeiten und Schulungsdatensätze fest, die zu ihrer Ermöglichung erforderlich sind. Wir gehen davon aus, dass GMAI-fähige Anwendungen die aktuellen Strategien zur Regulierung und Validierung von KI-Geräten für die Medizin in Frage stellen und die Praktiken im Zusammenhang mit der Sammlung großer medizinischer Datensätze verändern werden.
Foundation-Modelle – die neueste Generation von KI-Modellen – werden auf riesigen, vielfältigen Datensätzen trainiert und können auf zahlreiche nachgelagerte Aufgaben angewendet werden1. Einzelne Modelle können nun bei einer Vielzahl von Problemen Spitzenleistungen erbringen, von der Beantwortung von Fragen zu Texten über die Beschreibung von Bildern bis hin zum Spielen von Videospielen2,3,4. Diese Vielseitigkeit stellt eine deutliche Veränderung gegenüber der vorherigen Generation von KI-Modellen dar, die darauf ausgelegt waren, bestimmte Aufgaben einzeln zu lösen.
Aufgrund wachsender Datensätze, zunehmender Modellgröße und Fortschritte bei Modellarchitekturen bieten Fundamentmodelle bisher nicht dagewesene Fähigkeiten. Beispielsweise hat das Sprachmodell GPT-3 im Jahr 2020 eine neue Fähigkeit freigeschaltet: In-Context-Lernen, durch das das Modell völlig neue Aufgaben ausführte, für die es nie explizit trainiert wurde, indem es einfach aus Texterklärungen (oder „Eingabeaufforderungen“) lernte. ) mit einigen Beispielen5. Darüber hinaus sind viele neuere Grundlagenmodelle in der Lage, Kombinationen verschiedener Datenmodalitäten aufzunehmen und auszugeben4,6. Beispielsweise kann das aktuelle Gato-Modell chatten, Bilder mit Untertiteln versehen, Videospiele spielen und einen Roboterarm steuern und wurde daher als generalistischer Agent2 beschrieben. Da bestimmte Fähigkeiten nur in den größten Modellen zum Tragen kommen, bleibt es schwierig vorherzusagen, was selbst größere Modelle leisten können7.
Obwohl es frühe Bemühungen gab, medizinische Grundlagenmodelle zu entwickeln8,9,10,11, hat dieser Wandel die medizinische KI noch nicht umfassend durchdrungen, da es schwierig ist, auf große, vielfältige medizinische Datensätze zuzugreifen, die Komplexität des medizinischen Bereichs und die Aktualität dieser diese Entwicklung. Stattdessen werden medizinische KI-Modelle größtenteils noch mit einem aufgabenspezifischen Ansatz zur Modellentwicklung entwickelt. Beispielsweise kann ein Interpretationsmodell für Röntgenaufnahmen des Brustkorbs anhand eines Datensatzes trainiert werden, in dem jedes Bild explizit als positiv oder negativ für eine Lungenentzündung gekennzeichnet wurde, was wahrscheinlich einen erheblichen Annotationsaufwand erfordert. Dieses Modell würde nur eine Lungenentzündung erkennen und wäre nicht in der Lage, die vollständige diagnostische Aufgabe des Verfassens eines umfassenden radiologischen Berichts durchzuführen. Dieser enge, aufgabenspezifische Ansatz führt zu unflexiblen Modellen, die sich auf die Ausführung von Aufgaben beschränken, die durch den Trainingsdatensatz und seine Beschriftungen vordefiniert sind. In der aktuellen Praxis können sich solche Modelle normalerweise nicht an andere Aufgaben (oder sogar an unterschiedliche Datenverteilungen für dieselbe Aufgabe) anpassen, ohne auf einen anderen Datensatz umgeschult zu werden. Von den mehr als 500 KI-Modellen für die klinische Medizin, die von der Food and Drug Administration zugelassen wurden, wurden die meisten nur für ein oder zwei enge Aufgaben zugelassen12.
Hier skizzieren wir, wie jüngste Fortschritte in der Grundlagenmodellforschung dieses aufgabenspezifische Paradigma stören können. Dazu gehören das Aufkommen multimodaler Architekturen13 und selbstüberwachter Lerntechniken14, die auf explizite Bezeichnungen verzichten (z. B. Sprachmodellierung15 und kontrastives Lernen16), sowie das Aufkommen kontextbezogener Lernfähigkeiten5.
Diese Fortschritte werden stattdessen die Entwicklung von GMAI ermöglichen, einer Klasse fortschrittlicher medizinischer Grundlagenmodelle. „Generalistisch“ bedeutet, dass sie in vielen medizinischen Anwendungen weit verbreitet sein werden und aufgabenspezifische Modelle weitgehend ersetzen werden.
Direkt von Grundlagenmodellen außerhalb der Medizin inspiriert, identifizieren wir drei Schlüsselfunktionen, die GMAI-Modelle von herkömmlichen medizinischen KI-Modellen unterscheiden (Abb. 1). Erstens ist die Anpassung eines GMAI-Modells an eine neue Aufgabe so einfach wie die Beschreibung der Aufgabe in einfachem Englisch (oder einer anderen Sprache). Modelle werden in der Lage sein, bisher ungesehene Probleme einfach dadurch zu lösen, dass ihnen neue Aufgaben erklärt werden (dynamische Aufgabenspezifikation), ohne dass sie erneut trainiert werden müssen3,5. Zweitens können GMAI-Modelle Eingaben akzeptieren und Ausgaben unter Verwendung unterschiedlicher Kombinationen von Datenmodalitäten erzeugen (sie können beispielsweise Bilder, Text, Laborergebnisse oder eine beliebige Kombination davon aufnehmen). Diese flexible Interaktivität steht im Gegensatz zu den Einschränkungen starrerer multimodaler Modelle, die immer vordefinierte Sätze von Modalitäten als Eingabe und Ausgabe verwenden (z. B. Bilder, Text und Laborergebnisse immer zusammen aufnehmen müssen). Drittens werden GMAI-Modelle medizinisches Wissen formal repräsentieren und es ihnen ermöglichen, bisher unbekannte Aufgaben zu lösen und ihre Ergebnisse mit medizinisch korrekter Sprache zu erklären.
Wir listen konkrete Strategien auf, um diesen Paradigmenwechsel in der medizinischen KI zu erreichen. Darüber hinaus beschreiben wir eine Reihe potenziell wirkungsvoller Anwendungen, die diese neue Modellgeneration ermöglichen wird. Abschließend weisen wir auf die zentralen Herausforderungen hin, die bewältigt werden müssen, damit GMAI den versprochenen klinischen Wert liefern kann.
GMAI-Modelle versprechen, vielfältigere und anspruchsvollere Aufgaben zu lösen als aktuelle medizinische KI-Modelle, auch wenn für bestimmte Aufgaben kaum oder gar keine Bezeichnungen erforderlich sind. Von den drei definierenden Fähigkeiten von GMAI ermöglichen zwei flexible Interaktionen zwischen dem GMAI-Modell und dem Benutzer: erstens die Fähigkeit, dynamisch spezifizierte Aufgaben auszuführen; und zweitens die Fähigkeit, flexible Kombinationen von Datenmodalitäten zu unterstützen. Die dritte Fähigkeit erfordert, dass GMAI-Modelle medizinisches Fachwissen formal darstellen und es für die Durchführung fortgeschrittener medizinischer Überlegungen nutzen. Neuere Basismodelle weisen bereits einzelne Aspekte von GMAI auf, indem sie mehrere Modalitäten flexibel kombinieren2 oder es ermöglichen, eine neue Aufgabe zum Testzeitpunkt dynamisch zu spezifizieren5, aber es sind noch erhebliche Fortschritte erforderlich, um ein GMAI-Modell mit allen drei Fähigkeiten zu erstellen. Beispielsweise sind bestehende Modelle, die medizinische Denkfähigkeiten zeigen (wie GPT-3 oder PaLM), nicht multimodal und generieren noch keine zuverlässigen Sachaussagen.
GMAI bietet Benutzern die Möglichkeit, über benutzerdefinierte Abfragen mit Modellen zu interagieren, wodurch KI-Erkenntnisse für verschiedene Zielgruppen leichter verständlich werden und eine beispiellose Flexibilität bei Aufgaben und Einstellungen geboten wird. In der aktuellen Praxis bewältigen KI-Modelle typischerweise eine begrenzte Anzahl von Aufgaben und erzeugen eine starre, vorgegebene Menge an Ergebnissen. Beispielsweise könnte ein aktuelles Modell eine bestimmte Krankheit erkennen, indem es eine Art von Bild aufnimmt und immer die Wahrscheinlichkeit dieser Krankheit ausgibt. Im Gegensatz dazu können Benutzer mit einer benutzerdefinierten Abfrage spontan Fragen stellen: „Erklären Sie die Masse, die auf diesem MRT-Scan des Kopfes erscheint. Ist es wahrscheinlicher, dass es sich um einen Tumor oder einen Abszess handelt?“ Darüber hinaus können Benutzer mithilfe von Abfragen das Format ihrer Ausgaben anpassen: „Dies ist eine MRT-Nachuntersuchung eines Patienten mit Glioblastom. Markieren Sie alle Tumoren rot.“
Benutzerdefinierte Abfragen ermöglichen zwei wichtige Funktionen – dynamische Aufgabenspezifikation und multimodale Ein- und Ausgaben – wie folgt.
Benutzerdefinierte Abfragen können KI-Modellen beibringen, neue Probleme im Handumdrehen zu lösen und neue Aufgaben dynamisch zu spezifizieren, ohne dass Modelle neu trainiert werden müssen. GMAI kann beispielsweise hochspezifische, bisher nicht gestellte Fragen beantworten: „Wie dick ist die Gallenblasenwand bei diesem Ultraschall in Millimetern?“ Es überrascht nicht, dass ein GMAI-Modell möglicherweise Schwierigkeiten hat, neue Aufgaben zu erledigen, die unbekannte Konzepte oder Pathologien beinhalten. Durch kontextbezogenes Lernen können Benutzer dem GMAI dann anhand einiger Beispiele ein neues Konzept beibringen: „Hier sind die Krankengeschichten von zehn früheren Patienten mit einer neu auftretenden Krankheit, einer Infektion mit dem Langya-Henipavirus. Wie wahrscheinlich ist es, dass unser aktueller Patient daran leidet?“ auch mit dem Langya-Henipavirus infiziert?“17.
Mit benutzerdefinierten Abfragen können Benutzer komplexe medizinische Informationen in ihre Fragen einbeziehen und dabei die Modalitäten frei kombinieren. Beispielsweise könnte ein Arzt mehrere Bilder und Laborergebnisse in seine Abfrage einbeziehen, wenn er nach einer Diagnose fragt. GMAI-Modelle können auch flexibel verschiedene Modalitäten in Antworten integrieren, beispielsweise wenn ein Benutzer sowohl nach einer Textantwort als auch nach einer begleitenden Visualisierung fragt. In Anlehnung an frühere Modelle wie Gato können GMAI-Modelle Modalitäten kombinieren, indem sie die Daten jeder Modalität in „Tokens“ umwandeln, die jeweils eine kleine Einheit darstellen (z. B. ein Wort in einem Satz oder einen Patch in einem Bild), die über Modalitäten hinweg kombiniert werden kann. Dieser gemischte Token-Strom kann dann in eine Transformatorarchitektur18 eingespeist werden, die es GMAI-Modellen ermöglicht, die gesamte Krankengeschichte eines bestimmten Patienten zu integrieren, einschließlich Berichten, Wellenformsignalen, Laborergebnissen, Genomprofilen und Bildgebungsstudien.
Im krassen Gegensatz zu einem Kliniker mangelt es herkömmlichen medizinischen KI-Modellen in der Regel an Vorkenntnissen im medizinischen Bereich, bevor sie für ihre speziellen Aufgaben geschult werden. Stattdessen müssen sie sich ausschließlich auf statistische Zusammenhänge zwischen Merkmalen der Eingabedaten und dem Vorhersageziel verlassen, ohne über Kontextinformationen (z. B. über pathophysiologische Prozesse) zu verfügen. Dieser Mangel an Hintergrundwissen macht es schwieriger, Modelle für bestimmte medizinische Aufgaben zu trainieren, insbesondere wenn die Daten für die Aufgaben knapp sind.
GMAI-Modelle können diese Mängel beheben, indem sie medizinisches Wissen formal darstellen. Beispielsweise können Strukturen wie Wissensgraphen es Modellen ermöglichen, über medizinische Konzepte und Beziehungen zwischen ihnen nachzudenken. Darüber hinaus kann GMAI, aufbauend auf neueren abrufbasierten Ansätzen, relevanten Kontext aus vorhandenen Datenbanken abrufen, in Form von Artikeln, Bildern oder ganzen früheren Fällen19,20.
Die resultierenden Modelle können selbsterklärende Warnungen auslösen: „Bei diesem Patienten ist es wahrscheinlich, dass er ein akutes Atemnotsyndrom entwickelt, da der Patient kürzlich mit einem schweren Thoraxtrauma aufgenommen wurde und weil der Sauerstoffpartialdruck des Patienten im arteriellen Blut trotz dieser Erkrankung stetig gesunken ist.“ ein erhöhter eingeatmeter Sauerstoffanteil“.
Da ein GMAI-Modell möglicherweise sogar dazu aufgefordert wird, Behandlungsempfehlungen zu geben, obwohl es größtenteils auf Beobachtungsdaten trainiert wird, wird die Fähigkeit des Modells, kausale Zusammenhänge zwischen medizinischen Konzepten und klinischen Befunden abzuleiten und zu nutzen, eine Schlüsselrolle für die klinische Anwendbarkeit spielen21.
Schließlich kann ein GMAI-Modell durch den Zugriff auf umfangreiches molekulares und klinisches Wissen Aufgaben mit begrenzten Daten lösen, indem es auf das Wissen über verwandte Probleme zurückgreift, wie erste Arbeiten zur KI-basierten Wiederverwendung von Arzneimitteln22 zeigen.
Wir stellen sechs potenzielle Anwendungsfälle für GMAI vor, die auf unterschiedliche Benutzergruppen und Disziplinen abzielen, obwohl unsere Liste kaum erschöpfend ist. Obwohl es in diesen Bereichen bereits KI-Bemühungen gibt, gehen wir davon aus, dass GMAI umfassende Lösungen für jedes Problem ermöglichen wird.
GMAI ermöglicht eine neue Generation vielseitiger digitaler Radiologie-Assistenten, die Radiologen während ihres gesamten Arbeitsablaufs unterstützen und die Arbeitsbelastung deutlich reduzieren. GMAI-Modelle können automatisch radiologische Berichte erstellen, die sowohl Anomalien als auch relevante Normalbefunde beschreiben und dabei auch die Krankengeschichte des Patienten berücksichtigen. Diese Modelle können Ärzten weitere Hilfestellung bieten, indem sie Textberichte mit interaktiven Visualisierungen kombinieren, beispielsweise durch Hervorhebung des durch jede Phrase beschriebenen Bereichs. Radiologen können ihr Fallverständnis auch verbessern, indem sie mit GMAI-Modellen chatten: „Können Sie neue Multiple-Sklerose-Läsionen hervorheben, die im vorherigen Bild nicht vorhanden waren?“
Eine Lösung muss verschiedene radiologische Modalitäten genau interpretieren und selbst subtile Anomalien erkennen. Darüber hinaus müssen bei der Beschreibung eines Bildes Informationen aus der Krankengeschichte eines Patienten, einschließlich Quellen wie Indikationen, Laborergebnissen und früheren Bildern, berücksichtigt werden. Außerdem muss es über mehrere Modalitäten mit Ärzten kommunizieren und sowohl Textantworten als auch dynamisch kommentierte Bilder bereitstellen. Dazu muss es in der Lage sein, visuell fundiert zu sein und genau anzuzeigen, welcher Teil eines Bildes eine Aussage unterstützt. Obwohl dies durch überwachtes Lernen auf von Experten gekennzeichneten Bildern erreicht werden kann, könnten Erklärbarkeitsmethoden wie Grad-CAM selbstüberwachte Ansätze ermöglichen, die keine gekennzeichneten Daten erfordern23.
Wir erwarten ein chirurgisches GMAI-Modell, das Operationsteams bei Eingriffen unterstützen kann: „Wir können den Darmdurchbruch nicht finden. Überprüfen Sie, ob wir im visuellen Feed der letzten 15 Minuten einen Blick auf einen Darmabschnitt verpasst haben.“ GMAI-Modelle können Visualisierungsaufgaben ausführen und möglicherweise Videostreams eines Verfahrens in Echtzeit mit Anmerkungen versehen. Sie können Informationen auch in gesprochener Form bereitstellen, indem sie beispielsweise Alarme auslösen, wenn Schritte eines Eingriffs übersprungen werden, oder indem sie relevante Literatur vorlesen, wenn Chirurgen auf seltene anatomische Phänomene stoßen.
a: Ein GMAI-Modell wird anhand verschiedener medizinischer Datenmodalitäten durch Techniken wie selbstüberwachtes Lernen trainiert. Um flexible Interaktionen zu ermöglichen, können Datenmodalitäten wie Bilder oder Daten aus EHRs mit Sprache gepaart werden, entweder in Form von Text- oder Sprachdaten. Als nächstes muss das GMAI-Modell auf verschiedene Quellen medizinischen Wissens zugreifen, um medizinische Argumentationsaufgaben auszuführen und so eine Fülle von Fähigkeiten freizuschalten, die in nachgelagerten Anwendungen genutzt werden können. Das resultierende GMAI-Modell führt dann Aufgaben aus, die der Benutzer in Echtzeit festlegen kann. Zu diesem Zweck kann das GMAI-Modell kontextbezogene Informationen aus Quellen wie Wissensgraphen oder Datenbanken abrufen und dabei formales medizinisches Wissen nutzen, um über bisher ungesehene Aufgaben nachzudenken. b: Das GMAI-Modell bildet die Grundlage für zahlreiche Anwendungen in verschiedenen klinischen Disziplinen, die jeweils eine sorgfältige Validierung und behördliche Bewertung erfordern.
Dieses Modell kann auch bei Eingriffen außerhalb des Operationssaals hilfreich sein, beispielsweise bei endoskopischen Eingriffen. Ein Modell, das topografische Zusammenhänge und Gründe mit anatomischem Wissen erfasst, kann Rückschlüsse auf bisher ungesehene Phänomene ziehen. Daraus könnte beispielsweise geschlossen werden, dass eine große Gefäßstruktur, die bei einer Duodenoskopie auftritt, möglicherweise auf eine aortoduodenale Fistel (d. h. eine abnormale Verbindung zwischen der Aorta und dem Dünndarm) hinweist, obwohl noch nie zuvor eine Fistel aufgetreten ist (Abb. 2, rechtes Feld). GMAI kann diese Aufgabe lösen, indem es zunächst das Gefäß erkennt, dann die anatomische Lage identifiziert und schließlich die benachbarten Strukturen berücksichtigt.
a, GMAI könnte eine vielseitige und selbsterklärende Entscheidungsunterstützung am Krankenbett ermöglichen. b, Geerdete Radiologieberichte sind mit anklickbaren Links zur Visualisierung jedes Befundes ausgestattet. c, GMAI hat das Potenzial, Phänomene zu klassifizieren, die noch nie zuvor während der Modellentwicklung aufgetreten sind. Bei erweiterten Verfahren wird ein seltener Ausreißerbefund mit schrittweisen Überlegungen erklärt, indem medizinisches Fachwissen und topografischer Kontext genutzt werden. Das vorgestellte Beispiel ist von einem Fallbericht58 inspiriert. Bild der Fistel in Tafel c, übernommen aus Lit. 58, CC BY 3.0.
Eine Lösung muss Bild-, Sprach- und Audiomodalitäten integrieren und ein Bild-Audio-Sprachmodell verwenden, um gesprochene Anfragen zu akzeptieren und Aufgaben mithilfe des visuellen Feeds auszuführen. Vision-Sprach-Modelle haben bereits an Bedeutung gewonnen, und die Entwicklung von Modellen, die weitere Modalitäten integrieren, ist nur eine Frage der Zeit24. Ansätze können auf früheren Arbeiten aufbauen, die Sprachmodelle und Wissensgraphen25,26 kombinieren, um Schritt für Schritt über chirurgische Aufgaben nachzudenken. Darüber hinaus wird GMAI beim Einsatz in chirurgischen Umgebungen wahrscheinlich mit ungewöhnlichen klinischen Phänomenen konfrontiert sein, die aufgrund ihrer Seltenheit nicht in die Modellentwicklung einbezogen werden können, eine Herausforderung, die als „Long Tail of Unseen Conditions“ bekannt ist27. Die Fähigkeiten des medizinischen Denkens werden von entscheidender Bedeutung sein, um bisher unbekannte Ausreißer zu erkennen und zu erklären, wie in Abb. 2 veranschaulicht.
GMAI ermöglicht eine neue Klasse von Tools zur klinischen Entscheidungsunterstützung am Krankenbett, die bestehende KI-basierte Frühwarnsysteme erweitern und detailliertere Erklärungen sowie Empfehlungen für die zukünftige Pflege liefern. Beispielsweise können GMAI-Modelle zur Entscheidungsunterstützung am Krankenbett klinisches Wissen nutzen und Freitexterklärungen und Datenzusammenfassungen bereitstellen: „Warnung: Diese Patientin steht kurz vor einem Schock. Ihr Kreislauf hat sich in den letzten 15 Minuten destabilisiert .“ . Empfohlene nächste Schritte: “.
Eine Lösung muss Quellen elektronischer Gesundheitsakten (EHR) analysieren (z. B. Vital- und Laborparameter sowie klinische Notizen), die mehrere Modalitäten umfassen, einschließlich Text- und numerische Zeitreihendaten. Es muss in der Lage sein, den aktuellen Zustand eines Patienten aus Rohdaten zusammenzufassen, mögliche zukünftige Zustände des Patienten zu prognostizieren und Behandlungsentscheidungen zu empfehlen. Eine Lösung kann prognostizieren, wie sich der Zustand eines Patienten im Laufe der Zeit verändern wird, indem er Sprachmodellierungstechniken verwendet, um seine zukünftigen Text- und Zahlenaufzeichnungen aus seinen vorherigen Daten vorherzusagen. Trainingsdatensätze können EHR-Zeitreihendaten gezielt mit eventuellen Patientenergebnissen verknüpfen, die aus Entlassungsberichten und ICD-Codes (International Classification of Diseases) erfasst werden können. Darüber hinaus muss das Modell in der Lage sein, potenzielle Behandlungen zu vergleichen und ihre Auswirkungen abzuschätzen, und zwar unter Einhaltung therapeutischer Richtlinien und anderer relevanter Richtlinien. Das Modell kann das notwendige Wissen durch klinische Wissensgraphen und Textquellen wie wissenschaftliche Publikationen, Lehrbücher, internationale Richtlinien und lokale Richtlinien erwerben. Ansätze können von REALM inspiriert sein, einem Sprachmodell, das Anfragen beantwortet, indem es zunächst ein einzelnes relevantes Dokument abruft und dann die Antwort daraus extrahiert, sodass Benutzer die genaue Quelle jeder Antwort identifizieren können20.
Die Dokumentation ist ein integraler, aber arbeitsintensiver Bestandteil klinischer Arbeitsabläufe. Durch die Überwachung elektronischer Patienteninformationen sowie Gespräche zwischen Klinikern und Patienten erstellen GMAI-Modelle präventiv Dokumente wie elektronische Notizen und Entlassungsberichte, die Ärzte lediglich überprüfen, bearbeiten und genehmigen müssen. Somit kann GMAI den Verwaltungsaufwand erheblich reduzieren, sodass Ärzte mehr Zeit mit den Patienten verbringen können.
Eine GMAI-Lösung kann auf den jüngsten Fortschritten bei Speech-to-Text-Modellen28 basieren und Techniken für medizinische Anwendungen spezialisieren. Es muss Sprachsignale genau interpretieren und medizinische Fachsprache und Abkürzungen verstehen. Darüber hinaus müssen Sprachdaten mit Informationen aus den EHRs kontextualisiert werden (z. B. Diagnoseliste, Vitalparameter und frühere Entlassungsberichte) und anschließend Freitextnotizen oder -berichte erstellt werden. Es ist wichtig, die Einwilligung einzuholen, bevor eine Interaktion mit einem Patienten aufgezeichnet wird. Noch bevor solche Aufzeichnungen in großer Zahl gesammelt werden, könnten bereits frühe Notizenmodelle entwickelt werden, indem Daten zur Interaktion zwischen Arzt und Patient aus Chat-Anwendungen genutzt werden.
GMAI hat das Potenzial, neue Apps zur Patientenunterstützung voranzutreiben und so eine qualitativ hochwertige Versorgung auch außerhalb klinischer Umgebungen zu gewährleisten. GMAI kann beispielsweise mithilfe mehrerer Modalitäten eine ganzheitliche Sicht auf den Zustand eines Patienten erstellen, die von unstrukturierten Beschreibungen der Symptome über kontinuierliche Glukosemonitorwerte bis hin zu vom Patienten bereitgestellten Medikamentenprotokollen reicht. Nach der Interpretation dieser heterogenen Datentypen können GMAI-Modelle mit dem Patienten interagieren und detaillierte Ratschläge und Erklärungen geben. Wichtig ist, dass GMAI eine zugängliche Kommunikation ermöglicht und klare, lesbare oder hörbare Informationen über den Zeitplan des Patienten bereitstellt. Während ähnliche Apps derzeit darauf angewiesen sind, dass Kliniker personalisierte Unterstützung bieten29, verspricht GMAI, die Notwendigkeit menschlicher Experteneingriffe zu verringern oder sogar ganz zu beseitigen und Apps in größerem Maßstab verfügbar zu machen. Wie bei bestehenden Live-Chat-Anwendungen können Benutzer auf Anfrage weiterhin mit einem menschlichen Berater in Kontakt treten.
Der Aufbau patientenorientierter Chatbots mit GMAI bringt zwei besondere Herausforderungen mit sich. Erstens müssen patientenorientierte Modelle in der Lage sein, mit einem technisch nicht versierten Publikum klar zu kommunizieren und dabei eine einfache, klare Sprache zu verwenden, ohne die Genauigkeit des Inhalts zu beeinträchtigen. Die Aufnahme patientenorientierter medizinischer Texte in Trainingsdatensätze kann diese Funktion ermöglichen. Zweitens müssen diese Modelle mit verschiedenen, von Patienten gesammelten Daten arbeiten. Vom Patienten bereitgestellte Daten können ungewöhnliche Modalitäten darstellen; Beispielsweise können Patienten mit strengen Ernährungsanforderungen Vorher-Nachher-Fotos ihrer Mahlzeiten einreichen, damit GMAI-Modelle ihre Nahrungsaufnahme automatisch überwachen können. Von Patienten gesammelte Daten sind im Vergleich zu Daten aus einem klinischen Umfeld wahrscheinlich auch verrauschter, da Patienten möglicherweise anfälliger für Fehler sind oder bei der Datenerfassung weniger zuverlässige Geräte verwenden. Auch hier kann die Einbeziehung relevanter Daten in die Schulung dazu beitragen, diese Herausforderung zu meistern. Allerdings müssen GMAI-Modelle auch ihre eigene Unsicherheit überwachen und entsprechende Maßnahmen ergreifen, wenn ihnen nicht genügend zuverlässige Daten vorliegen.
GMAI könnte Protein-Aminosäuresequenzen und ihre dreidimensionalen Strukturen aus Textaufforderungen generieren. Inspiriert durch bestehende generative Modelle von Proteinsequenzen30 könnte ein solches Modell seine Generierung von gewünschten funktionellen Eigenschaften abhängig machen. Im Gegensatz dazu verspricht ein biomedizinisch fundiertes GMAI-Modell Proteindesignschnittstellen, die genauso flexibel und einfach zu verwenden sind wie gleichzeitige generative Text-zu-Bild-Modelle wie Stable Diffusion oder DALL-E31,32. Darüber hinaus kann ein GMAI-basiertes Text-zu-Protein-Modell durch die Freischaltung von kontextbezogenen Lernfunktionen mit einer Handvoll Beispielanweisungen gepaart mit Sequenzen angeregt werden, um dynamisch eine neue Generationsaufgabe zu definieren, beispielsweise die Generierung eines Proteins, das bindet hohe Affinität zu einem bestimmten Ziel bei gleichzeitiger Erfüllung zusätzlicher Einschränkungen.
Es gab bereits erste Versuche, grundlegende Modelle für biologische Sequenzen zu entwickeln33,34, einschließlich RFdiffusion, die Proteine auf der Grundlage einfacher Spezifikationen (z. B. eines Bindungsziels) generiert35. Aufbauend auf dieser Arbeit kann eine GMAI-basierte Lösung während des Trainings sowohl Sprach- als auch Proteinsequenzdaten integrieren, um eine vielseitige Textschnittstelle bereitzustellen. Eine Lösung könnte auch auf jüngsten Fortschritten in der multimodalen KI wie CLIP basieren, bei dem Modelle gemeinsam auf gepaarten Daten verschiedener Modalitäten trainiert werden16. Bei der Erstellung eines solchen Trainingsdatensatzes müssen einzelne Proteinsequenzen mit relevanten Textpassagen (zum Beispiel aus der biologischen Literatur) gepaart werden, die die Eigenschaften der Proteine beschreiben. Groß angelegte Initiativen wie UniProt, die Proteinfunktionen für Millionen von Proteinen kartieren, werden für diese Bemühungen unverzichtbar sein36.
GMAI hat das Potenzial, die medizinische Praxis zu beeinflussen, indem es die Pflege verbessert und das Burnout bei Ärzten reduziert. Hier beschreiben wir die übergreifenden Vorteile von GMAI-Modellen. Wir beschreiben auch kritische Herausforderungen, die angegangen werden müssen, um einen sicheren Einsatz zu gewährleisten, da GMAI-Modelle im Vergleich zu Basismodellen in anderen Bereichen in besonders risikoreichen Umgebungen eingesetzt werden.
Mit GMAI können Benutzer das Format seiner Ausgaben genau steuern, wodurch komplexe medizinische Informationen leichter zugänglich und verständlicher werden. Beispielsweise wird es GMAI-Modelle geben, die Antworten in natürlicher Sprache auf Anfrage umformulieren können. Ebenso können von GMAI bereitgestellte Visualisierungen sorgfältig angepasst werden, beispielsweise durch Ändern des Blickwinkels oder Markieren wichtiger Funktionen mit Text. Modelle können möglicherweise auch den Grad der domänenspezifischen Details in ihren Ausgaben anpassen oder sie in mehrere Sprachen übersetzen, um effektiv mit verschiedenen Benutzern zu kommunizieren. Schließlich ermöglicht die Flexibilität von GMAI die Anpassung an bestimmte Regionen oder Krankenhäuser und die Einhaltung lokaler Gepflogenheiten und Richtlinien. Benutzer benötigen möglicherweise eine formelle Anleitung zum Abfragen eines GMAI-Modells und zur effektivsten Nutzung seiner Ausgaben.
Bestehende medizinische KI-Modelle haben mit Verteilungsverschiebungen zu kämpfen, bei denen sich die Datenverteilung aufgrund von Änderungen in Technologien, Verfahren, Einstellungen oder Populationen verschiebt37,38. GMAI kann jedoch durch kontextbezogenes Lernen mit den Veränderungen Schritt halten. Beispielsweise kann ein Krankenhaus einem GMAI-Modell beibringen, Röntgenstrahlen von einem brandneuen Scanner zu interpretieren, indem es einfach Eingabeaufforderungen bereitstellt, die eine kleine Reihe von Beispielen zeigen. Somit kann sich GMAI im Handumdrehen an neue Datenverteilungen anpassen, während herkömmliche medizinische KI-Modelle auf einen völlig neuen Datensatz umgeschult werden müssten. Derzeit wird kontextbezogenes Lernen überwiegend in großen Sprachmodellen beobachtet39. Um sicherzustellen, dass GMAI sich an Kontextänderungen anpassen kann, muss ein GMAI-Modell-Backbone auf äußerst unterschiedliche Daten aus mehreren, sich ergänzenden Quellen und Modalitäten trainiert werden. Um sich beispielsweise an neu auftretende Varianten der Coronavirus-Krankheit 2019 anzupassen, kann ein erfolgreiches Modell Merkmale vergangener Varianten abrufen und diese aktualisieren, wenn es in einer Abfrage mit einem neuen Kontext konfrontiert wird. Ein Arzt könnte zum Beispiel sagen: „Überprüfen Sie diese Röntgenaufnahmen des Brustkorbs auf eine Omicron-Pneumonie. Betrachten Sie im Vergleich zur Delta-Variante Infiltrate rund um die Bronchien und Blutgefäße als Anzeichen.“40
Obwohl Benutzer das Verhalten des Modells durch Eingabeaufforderungen manuell anpassen können, können neue Techniken möglicherweise auch eine Rolle spielen, um menschliches Feedback automatisch einzubeziehen. Beispielsweise können Benutzer möglicherweise jede Ausgabe eines GMAI-Modells bewerten oder kommentieren, ähnlich wie Benutzer Ausgaben von ChatGPT (veröffentlicht von OpenAI im Jahr 2022), einer KI-gestützten Chat-Schnittstelle, bewerten. Dieses Feedback kann dann zur Verbesserung des Modellverhaltens verwendet werden, ganz nach dem Vorbild von InstructGPT, einem Modell, das mithilfe menschlichen Feedbacks erstellt wurde, um GPT-3 durch verstärkendes Lernen zu verfeinern41.
Groß angelegte KI-Modelle dienen bereits als Grundlage für zahlreiche nachgelagerte Anwendungen. Beispielsweise unterstützte GPT-3 innerhalb weniger Monate nach seiner Veröffentlichung mehr als 300 Apps in verschiedenen Branchen42. Als vielversprechendes frühes Beispiel eines medizinischen Grundlagenmodells kann CheXzero zur Erkennung Dutzender Krankheiten in Röntgenaufnahmen des Brustkorbs eingesetzt werden, ohne dass eine Schulung in expliziten Etiketten für diese Krankheiten erforderlich ist9. Ebenso wird die Umstellung auf GMAI die Entwicklung und Veröffentlichung groß angelegter medizinischer KI-Modelle mit breiten Fähigkeiten vorantreiben, die die Grundlage für verschiedene nachgelagerte klinische Anwendungen bilden werden. Viele Anwendungen stellen eine Schnittstelle zum GMAI-Modell selbst her und nutzen direkt dessen Endausgaben. Andere verwenden möglicherweise numerische Zwischendarstellungen, die GMAI-Modelle auf natürliche Weise im Prozess der Ausgabeerzeugung generieren, als Eingaben für kleine Spezialmodelle, die kostengünstig für bestimmte Aufgaben erstellt werden können. Diese flexible Anwendbarkeit kann jedoch wie ein zweischneidiges Schwert wirken, da sich jeder Fehlermodus, der im Basismodell vorhanden ist, in weiten Teilen auf die nachgelagerten Anwendungen ausbreitet.
GMAI-Modelle werden aufgrund ihrer beispiellosen Vielseitigkeit besonders schwer zu validieren sein. Derzeit sind KI-Modelle für bestimmte Aufgaben konzipiert und müssen daher nur für diese vordefinierten Anwendungsfälle validiert werden (z. B. die Diagnose einer bestimmten Krebsart anhand einer MRT des Gehirns). GMAI-Modelle können jedoch zum ersten Mal zuvor von einem Endbenutzer gestellte Aufgaben ausführen (z. B. die Diagnose einer Krankheit in einem Gehirn-MRT), sodass es grundsätzlich schwieriger ist, alle Fehlermodi vorherzusehen. Entwickler und Regulierungsbehörden sind dafür verantwortlich, zu erklären, wie GMAI-Modelle getestet wurden und für welche Anwendungsfälle sie zugelassen wurden. GMAI-Schnittstellen selbst sollten so konzipiert sein, dass sie beim Betreten unbekannter Gebiete Warnungen vor „Off-Label-Verwendung“ auslösen, anstatt selbstbewusst ungenaue Informationen zu fabrizieren. Generell erfordern die einzigartig umfassenden Fähigkeiten von GMAI regulatorische Weitsicht und erfordern, dass sich institutionelle und staatliche Richtlinien an das neue Paradigma anpassen, und werden auch Versicherungsvereinbarungen und Haftungszuweisungen neu gestalten.
Im Vergleich zu herkömmlichen KI-Modellen können GMAI-Modelle ungewöhnlich komplexe Ein- und Ausgaben verarbeiten, was es für Kliniker schwieriger macht, deren Richtigkeit zu bestimmen. Beispielsweise berücksichtigen herkömmliche Modelle bei der Klassifizierung der Krebserkrankung eines Patienten möglicherweise nur eine bildgebende Untersuchung oder ein vollständiges Objektträgerbild. In jedem Fall könnte ein einzelner Radiologe oder Pathologe überprüfen, ob die Ergebnisse des Modells korrekt sind. Ein GMAI-Modell kann jedoch beide Arten von Eingaben berücksichtigen und eine erste Klassifizierung, eine Empfehlung für die Behandlung und eine multimodale Begründung mit Visualisierungen, statistischen Analysen und Verweisen auf die Literatur ausgeben. In diesem Fall ist möglicherweise ein multidisziplinäres Gremium (bestehend aus Radiologen, Pathologen, Onkologen und weiteren Spezialisten) erforderlich, um die Ergebnisse des GMAI zu beurteilen. Die Faktenprüfung der GMAI-Ausgaben stellt daher eine große Herausforderung dar, sowohl während der Validierung als auch nach der Modellbereitstellung.
Ersteller können die Überprüfung von GMAI-Ausgaben durch die Integration von Erklärbarkeitstechniken erleichtern. Die Ergebnisse eines GMAI könnten beispielsweise anklickbare Links zu unterstützenden Passagen in der Literatur enthalten, sodass Ärzte GMAI-Vorhersagen effizienter überprüfen können. Andere Strategien zur Faktenprüfung der Ergebnisse eines Modells ohne menschliches Fachwissen wurden kürzlich vorgeschlagen43. Schließlich ist es von entscheidender Bedeutung, dass GMAI-Modelle die Unsicherheit genau ausdrücken und so übertriebene Aussagen von vornherein verhindern.
Frühere Arbeiten haben bereits gezeigt, dass medizinische KI-Modelle Vorurteile aufrechterhalten und marginalisierten Bevölkerungsgruppen Schaden zufügen können. Sie können während des Trainings Verzerrungen entwickeln, wenn Datensätze entweder bestimmte Patientengruppen unterrepräsentieren oder schädliche Korrelationen enthalten44,45. Diese Risiken werden bei der Entwicklung von GMAI wahrscheinlich noch ausgeprägter sein. Aufgrund des beispiellosen Umfangs und der Komplexität der erforderlichen Trainingsdatensätze wird es schwierig sein, sicherzustellen, dass sie frei von unerwünschten Verzerrungen sind. Obwohl Vorurteile bereits eine Herausforderung für konventionelle KI im Gesundheitsbereich darstellen, sind sie für GMAI von besonderer Relevanz, da eine kürzlich durchgeführte groß angelegte Auswertung gezeigt hat, dass soziale Vorurteile mit der Modellskala zunehmen können46.
GMAI-Modelle müssen gründlich validiert werden, um sicherzustellen, dass sie bei bestimmten Bevölkerungsgruppen wie Minderheitengruppen nicht unterdurchschnittlich abschneiden. Darüber hinaus müssen Modelle auch nach der Bereitstellung einer kontinuierlichen Prüfung und Regulierung unterzogen werden, da neue Probleme auftreten, wenn Modelle auf neue Aufgaben und Einstellungen treffen. Mit Preisen dotierte Wettbewerbe könnten die KI-Community dazu anregen, GMAI-Modelle weiter zu hinterfragen. Teilnehmer könnten beispielsweise dafür belohnt werden, dass sie Eingabeaufforderungen finden, die schädliche Inhalte produzieren oder andere Fehlermöglichkeiten aufdecken. Das schnelle Erkennen und Beheben von Vorurteilen muss für Entwickler, Anbieter und Regulierungsbehörden oberste Priorität haben.
Die Entwicklung und Verwendung von GMAI-Modellen birgt ernsthafte Risiken für die Privatsphäre der Patienten. GMAI-Modelle haben möglicherweise Zugriff auf eine Vielzahl von Patientenmerkmalen, darunter klinische Messungen und Signale, molekulare Signaturen und demografische Informationen sowie Verhaltens- und sensorische Trackingdaten. Darüber hinaus werden GMAI-Modelle wahrscheinlich große Architekturen verwenden, aber größere Modelle neigen eher dazu, Trainingsdaten zu speichern und sie direkt an Benutzer zu wiederholen47. Daher besteht ein ernstes Risiko, dass GMAI-Modelle sensible Patientendaten in Trainingsdatensätzen offenlegen. Durch die Anonymisierung und die Begrenzung der Menge der gesammelten Informationen für einzelne Patienten kann der durch offengelegte Daten verursachte Schaden verringert werden.
Datenschutzbedenken beschränken sich jedoch nicht nur auf Trainingsdaten, da eingesetzte GMAI-Modelle auch Daten aktueller Patienten offenlegen können. Schnelle Angriffe können Modelle wie GPT-3 dazu verleiten, frühere Anweisungen zu ignorieren48. Stellen Sie sich beispielsweise vor, dass ein GMAI-Modell angewiesen wurde, Patienteninformationen niemals an nicht autorisierte Benutzer weiterzugeben. Ein böswilliger Benutzer könnte das Modell zwingen, diese Anweisung zum Extrahieren vertraulicher Daten zu ignorieren.
Neuere Basismodelle haben deutlich an Größe zugenommen, was die mit der Datenerfassung und Modellschulung verbundenen Kosten in die Höhe treibt. Modelle dieser Größenordnung erfordern umfangreiche Trainingsdatensätze, die im Fall von GPT-3 Hunderte Milliarden Token enthalten und deren Erhebung teuer ist. Darüber hinaus erforderte PaLM, ein von Google entwickeltes 540-Milliarden-Parameter-Modell, schätzungsweise 8,4 Millionen Stunden an Tensor-Processing-Unit-v4-Chips für das Training, wobei etwa 3.000 bis 6.000 Chips gleichzeitig verwendet wurden, was einem Rechenaufwand in Millionenhöhe entspricht49 . Darüber hinaus bringt die Entwicklung solch großer Modelle erhebliche Umweltkosten mit sich, da das Training jedes Modells Schätzungen zufolge bis zu Hunderte Tonnen CO2-Äquivalent erzeugt50.
Diese Kosten werfen die Frage auf, wie groß Datensätze und Modelle sein sollten. Eine kürzlich durchgeführte Studie stellte einen Zusammenhang zwischen der Datensatzgröße und der Modellgröße her und empfahl 20-mal mehr Token als Parameter für eine optimale Leistung. Bestehende Basismodelle wurden jedoch erfolgreich mit einem niedrigeren Token-zu-Parameter-Verhältnis trainiert51. Es bleibt daher schwierig abzuschätzen, wie groß Modelle und Datensätze bei der Entwicklung von GMAI-Modellen sein müssen, insbesondere weil der erforderliche Maßstab stark vom jeweiligen medizinischen Anwendungsfall abhängt.
Die Datenerfassung wird eine besondere Herausforderung für die GMAI-Entwicklung darstellen, da beispiellose Mengen an medizinischen Daten benötigt werden. Vorhandene Basismodelle werden in der Regel auf heterogenen Daten trainiert, die durch Crawlen des Webs gewonnen werden, und solche Allzweck-Datenquellen können potenziell zum Vortraining von GMAI-Modellen verwendet werden (d. h. zur Durchführung einer ersten vorbereitenden Trainingsrunde). Obwohl sich diese Datensätze nicht auf die Medizin konzentrieren, kann ein solches Vortraining GMAI-Modelle mit nützlichen Fähigkeiten ausstatten. Beispielsweise können Allzweckmodelle wie Flan-PaLM oder ChatGPT medizinische Fragen genau beantworten, indem sie auf medizinische Texte zurückgreifen, die in ihren Trainingsdatensätzen enthalten sind, und so die bestandene Punktzahl bei der medizinischen Zulassungsprüfung der Vereinigten Staaten erreichen10,52,53. Dennoch werden für die Entwicklung von GMAI-Modellen wahrscheinlich auch umfangreiche Datensätze erforderlich sein, die sich speziell auf den medizinischen Bereich und seine Modalitäten konzentrieren. Diese Datensätze müssen vielfältig, anonymisiert und in kompatiblen Formaten organisiert sein, und die Verfahren zum Sammeln und Teilen von Daten müssen den heterogenen Richtlinien verschiedener Institutionen und Regionen entsprechen. Obwohl das Sammeln derart großer Datensätze eine erhebliche Herausforderung darstellen wird, sind für diese Daten aufgrund des Erfolgs der Selbstüberwachung im Allgemeinen keine kostspieligen Expertenkennzeichnungen erforderlich9,54. Darüber hinaus können multimodale Selbstüberwachungstechniken verwendet werden, um Modelle anhand mehrerer Datensätze zu trainieren, die jeweils Messungen von wenigen Modalitäten enthalten, wodurch der Bedarf an großen, teuren Datensätzen, die Messungen von vielen Modalitäten pro Patient enthalten, verringert wird. Mit anderen Worten: Ein Modell kann auf einem Datensatz mit EHR- und MRT-Daten und einem zweiten mit EHR- und Genomdaten trainiert werden, ohne dass ein großer Datensatz erforderlich ist, der EHR-, MRT- und Genomdaten gleichzeitig enthält. Groß angelegte Datenaustauschbemühungen wie die MIMIC-Datenbank (Medical Information Mart for Intensive Care)55 oder die UK Biobank56 werden bei GMAI eine entscheidende Rolle spielen und sollten auf unterrepräsentierte Länder ausgeweitet werden, um größere, reichere und integrativere Maßnahmen zu schaffen Trainingsdatensätze.
Die Größe der GMAI-Modelle wird auch technische Herausforderungen mit sich bringen. GMAI-Modelle sind nicht nur kostspielig in der Schulung, sondern können auch eine Herausforderung bei der Bereitstellung sein, da sie spezielle High-End-Hardware erfordern, auf die Krankenhäuser möglicherweise nur schwer zugreifen können. Für bestimmte Anwendungsfälle (z. B. Chatbots) können GMAI-Modelle auf zentralen Rechenclustern gespeichert werden, die von Organisationen mit umfassendem technischem Fachwissen verwaltet werden, wie dies bei DALL-E oder GPT-3 der Fall ist. Andere GMAI-Modelle müssen jedoch möglicherweise lokal in Krankenhäusern oder anderen medizinischen Einrichtungen bereitgestellt werden, sodass keine stabile Netzwerkverbindung erforderlich ist und sensible Patientendaten vor Ort bleiben. In diesen Fällen muss die Modellgröße möglicherweise durch Techniken wie die Wissensdestillation reduziert werden, bei der große Modelle kleinere Modelle lehren, die unter praktischen Einschränkungen einfacher eingesetzt werden können57.
Stiftungsmodelle haben das Potenzial, die Gesundheitsversorgung zu verändern. Die von uns beschriebene Klasse fortgeschrittener Basismodelle, GMAI, analysiert abwechselnd mehrere Datenmodalitäten, erlernt spontan neue Aufgaben und nutzt Domänenwissen, was Möglichkeiten für ein nahezu unbegrenztes Spektrum medizinischer Aufgaben bietet. Die Flexibilität von GMAI ermöglicht es Modellen, in neuen Umgebungen relevant zu bleiben und mit aufkommenden Krankheiten und Technologien Schritt zu halten, ohne dass sie ständig von Grund auf neu trainiert werden müssen. GMAI-basierte Anwendungen werden sowohl in traditionellen klinischen Umgebungen als auch auf Remote-Geräten wie Smartphones eingesetzt, und wir gehen davon aus, dass sie für unterschiedliche Zielgruppen nützlich sein werden und sowohl Anwendungen für Ärzte als auch für Patienten ermöglichen.
Trotz ihres Versprechens stellen GMAI-Modelle einzigartige Herausforderungen dar. Ihre extreme Vielseitigkeit erschwert eine umfassende Validierung, und ihre Größe kann zu erhöhten Rechenkosten führen. Mit der Datenerfassung und dem Datenzugriff werden besondere Schwierigkeiten verbunden sein, da die Trainingsdatensätze von GMAI nicht nur groß, sondern auch vielfältig sein und einen angemessenen Schutz der Privatsphäre bieten müssen. Wir fordern die KI-Community und die klinischen Interessengruppen auf, diese Herausforderungen frühzeitig sorgfältig zu berücksichtigen, um sicherzustellen, dass GMAI kontinuierlich klinischen Wert liefert. Letztendlich verspricht GMAI beispiellose Möglichkeiten für die Gesundheitsversorgung, indem es Kliniker bei einer Reihe wichtiger Aufgaben unterstützt, Kommunikationsbarrieren überwindet, qualitativ hochwertige Pflege allgemeiner zugänglich macht und den Verwaltungsaufwand für Kliniker verringert, damit diese mehr Zeit mit Patienten verbringen können.
Bommasani, R. et al. Zu Chancen und Risiken von Stiftungsmodellen. Vorabdruck unter https://arxiv.org/abs/2108.07258 (2022).
Reed, S. et al. Ein generalistischer Agent. In Transaktionen zur maschinellen Lernforschung (2022). In dieser Studie wurde Gato vorgestellt, ein generalistisches Modell, das eine Vielzahl von Aufgaben über verschiedene Modalitäten hinweg ausführen kann, wie z. B. Chatten, Bilder mit Untertiteln versehen, Videospiele spielen und einen Roboterarm steuern.
Alayrac, J.-B. et al. Flamingo: ein visuelles Sprachmodell für das Lernen in wenigen Schritten. In Advances in Neural Information Processing Systems (Hrsg. Oh, AH et al.) 35, 23716–23736 (2022).
Lu, J., Clark, C., Zellers, R., Mottaghi, R. & Kembhavi, A. Unified-IO: ein einheitliches Modell für Vision, Sprache und multimodale Aufgaben. Vorabdruck unter https://arxiv.org/abs/2206.08916 (2022).
Brown, T. et al. Sprachmodelle sind Wenig-Schuss-Lernende. In Advances in Neural Information Processing Systems (Hrsg. Larochelle, H. et al.) 33, 1877–1901 (2020). Diese Studie stellte das Sprachmodell GPT-3 vor und entdeckte, dass große Sprachmodelle kontextbezogenes Lernen durchführen können.
Aghajanyan, A. et al. CM3: ein kausal maskiertes multimodales Modell des Internets. Vorabdruck unter https://arxiv.org/abs/2201.07520 (2022).
Wei, J. et al. Emergente Fähigkeiten großer Sprachmodelle. In Transaktionen zur maschinellen Lernforschung (2022).
Steinberg, E. et al. Sprachmodelle sind eine effektive Lerntechnik zur Darstellung elektronischer Patientenakten. J. Biomed. Informieren. 113, 103637 (2021).
Artikel PubMed Google Scholar
Tiu, E. et al. Erkennung von Pathologien auf Expertenebene anhand von unkommentierten Röntgenbildern des Brustkorbs durch selbstüberwachtes Lernen. Nat. Biomed. Ing. 6, 1399–1406 (2022). Diese Studie zeigte, dass CheXzero – ein frühes Beispiel eines Basismodells der medizinischen KI – Krankheiten auf Röntgenaufnahmen des Brustkorbs ohne explizite Anmerkung erkennen kann, indem es aus Beschreibungen in natürlicher Sprache lernt, die in begleitenden klinischen Berichten enthalten sind.
Singhal, K. et al. Große Sprachmodelle kodieren klinisches Wissen. Vorabdruck unter https://arxiv.org/abs/2212.13138 (2022). Diese Studie zeigte, dass das Sprachmodell Flan-PaLM bei einem Datensatz mit Fragen zur US-amerikanischen Zulassungsprüfung eine bestandene Punktzahl (67,6 %) erreicht, und schlug Med-PaLM vor, eine medizinische Variante von Flan-PaLM mit verbessertem klinischen Denken und Verständnis.
Yang, X. et al. Ein großes Sprachmodell für elektronische Gesundheitsakten. npj Ziffer. Med. 5, 194 (2022).
Artikel PubMed PubMed Central Google Scholar
Lebensmittel- und Arzneimittelbehörde. Künstliche Intelligenz und maschinelles Lernen (KI/ML)-fähige medizinische Geräte. FDA https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices (2022).
Acosta, JN, Falcone, GJ, Rajpurkar, P. & Topol, EJ Multimodale biomedizinische KI. Nat. Med. 28, 1773–1784 (2022).
Artikel CAS PubMed Google Scholar
Krishnan, R., Rajpurkar, P. & Topol, EJ Selbstüberwachtes Lernen in Medizin und Gesundheitswesen. Nat. Biomed. Ing. 6, 1346–1352 (2022).
Artikel PubMed Google Scholar
Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: Vortraining tiefer bidirektionaler Transformatoren für das Sprachverständnis. In Proc. 2019-Konferenz des nordamerikanischen Kapitels der Association for Computational Linguistics: Human Language Technologies (Hrsg. Burstein, J., Doran, C. & Solorio, T.) 1, 4171–4186 (2019). In diesem Artikel wurde die maskierte Sprachmodellierung vorgestellt, eine weit verbreitete Technik zum Trainieren von Sprachmodellen, bei der Teile einer Textsequenz ausgeblendet (maskiert) werden, damit das Modell die Lücken füllen kann. Diese Strategie kann über Text hinaus auf andere Datentypen ausgeweitet werden.
Radford, A. et al. Erlernen übertragbarer visueller Modelle durch Supervision in natürlicher Sprache. In Proc. 38. Int. Konferenz über maschinelles Lernen (Hrsg. Meila, M. & Zhang, T.) 139, 8748–8763 (2021). In diesem Artikel wurde das Kontrastive Language-Image Pretraining (CLIP) vorgestellt, ein multimodaler Ansatz, der es einem Modell ermöglichte, aus Bildern gepaart mit Rohtext zu lernen.
Zhang, X.-A. et al. Ein zoonotisches Henipavirus bei fieberhaften Patienten in China. N. engl. J. Med. 387, 470–472 (2022).
Artikel PubMed Google Scholar
Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. In Advances in Neural Information Processing Systems (Hrsg. Guyon, I. et al.) 30, 5998–6008 (2017). In diesem Artikel wurde die Transformatorarchitektur vorgestellt, ein wichtiger Durchbruch, der letztendlich zur Entwicklung groß angelegter Fundamentmodelle führte.
Borgeaud, S. et al. Verbesserung von Sprachmodellen durch Abrufen von Billionen von Token. In Proc. 39. Int. Konferenz über maschinelles Lernen (Hrsg. Chaudhuri, K. et al.) 162, 2206–2240 (2022).
Guu, K., Lee, K., Tung, Z., Pasupat, P. & Chang, M.-W. REALM: Vorschulung eines durch Abruf erweiterten Sprachmodells. In Proc. 37. Int. Konferenz über maschinelles Lernen (Hrsg. Daumé, H. & Singh, A.) 119, 3929–3938 (2020).
Igelström, E. et al. Kausale Schlussfolgerung und Wirkungsabschätzung anhand von Beobachtungsdaten. J. Epidemiol. Community Health 76, 960–966 (2022).
Artikel Google Scholar
Wang, Q., Huang, K., Chandak, P., Zitnik, M. & Gehlenborg, N. Erweiterung des verschachtelten Modells für benutzerzentrierte XAI: eine Designstudie zur GNN-basierten Arzneimittelumnutzung. IEEE Trans. Vis. Berechnen. Graph. 29, 1266–1276 (2023).
Artikel PubMed Google Scholar
Li, J. et al. Vor der Fusion ausrichten: Lernen von Vision und Sprachrepräsentation mit Impulsdestillation. In Advances in Neural Information Processing Systems (Hrsg. Ranzato, M. et al.) 34, 9694–9705 (2021).
Google Scholar
Wang, Z. et al. SimVLM: einfaches Vortraining für ein visuelles Sprachmodell mit schwacher Aufsicht. Im Int. Konferenz über lernende Repräsentationen (Hrsg. Hofmann, K. & Rush, A.) (2022).
Yasunaga, M. et al. Tiefes bidirektionales Sprachwissensgraphen-Vortraining. In Advances in Neural Information Processing Systems (Hrsg. Oh, AH et al.) 35 (2022).
Yasunaga, M., Ren, H., Bosselut, A., Liang, P. & Leskovec, J. QA-GNN: Argumentation mit Sprachmodellen und Wissensgraphen zur Beantwortung von Fragen. In Proc. 2021 Konferenz des nordamerikanischen Kapitels der Association for Computational Linguistics: Human Language Technologies (Hrsg. Toutanova, K. et al.) 535–546 (2021).
Guha Roy, A. et al. Weiß Ihr Dermatologie-Klassifikator, was er nicht weiß? Erkennen des langen Schweifs unsichtbarer Bedingungen. Med. Bild Anal. 75, 102274 (2022).
Artikel PubMed Google Scholar
Radford, A. et al. Robuste Spracherkennung durch groß angelegte schwache Überwachung. Vorabdruck unter https://arxiv.org/abs/2212.04356 (2022).
Dixon, RF et al. Eine virtuelle Klinik für Typ-2-Diabetes mit kontinuierlicher Glukoseüberwachung und endokrinologischen Besuchen. J. Diabetes Sci. Technol. 14, 908–911 (2020).
Artikel PubMed Google Scholar
Kucera, T., Togninalli, M. & Meng-Papaxanthos, L. Bedingte generative Modellierung für De-novo-Proteindesign mit hierarchischen Funktionen. Bioinformatik 38, 3454–3461 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Rombach, R., Blattmann, A., Lorenz, D., Esser, P. & Ommer, B. Hochauflösende Bildsynthese mit latenten Diffusionsmodellen. In Proc. IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (Hrsg. Chellappa, R. et al.) 10684–10695 (2022).
Ramesh, A. et al. Zero-Shot-Text-zu-Bild-Generierung. In Proc. 38. Int. Konferenz über maschinelles Lernen (Hrsg. Meila, M. & Zhang, T.) 139, 8821–8831 (2021).
Jumper, J. et al. Hochpräzise Vorhersage der Proteinstruktur mit AlphaFold. Natur 596, 583–589 (2021).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Zvyagin, M. et al. GenSLMs: Sprachmodelle im Genommaßstab offenbaren die Evolutionsdynamik von SARS-CoV-2. Vorabdruck bei bioRxiv https://doi.org/10.1101/2022.10.10.511571 (2022).
Watson, JL et al. Breit anwendbares und genaues Proteindesign durch Integration von Strukturvorhersagenetzwerken und generativen Diffusionsmodellen. Vorabdruck bei bioRxiv https://doi.org/10.1101/2022.12.09.519842 (2022).
Das UniProt-Konsortium. UniProt: die universelle Protein-Wissensdatenbank. Nukleinsäuren Res. 45, D158–D169 (2017).
Artikel Google Scholar
Guo, LL et al. Systematische Überprüfung von Ansätzen zur Erhaltung der Leistung maschinellen Lernens bei zeitlichen Datensatzverschiebungen in der klinischen Medizin. Appl. Klin. Informieren. 12, 808–815 (2021).
Artikel PubMed PubMed Central Google Scholar
Finlayson, SG et al. Der Kliniker- und Datensatzwandel in der künstlichen Intelligenz. N. engl. J. Med. 385, 283–286 (2021).
Artikel PubMed PubMed Central Google Scholar
Lampinen, AK et al. Können Sprachmodelle aus Erklärungen im Kontext lernen? In Findings of the Association for Computational Linguistics: EMNLP 2022 (Hrsg. Goldberg, Y., Kozareva, Z. & Zhang, Y.) 537–563 (2022).
Yoon, SH, Lee, JH & Kim, B.-N. Thorax-CT-Befunde bei hospitalisierten Patienten mit SARS-CoV-2: Delta- versus Omicron-Varianten. Radiologie 306, 252–260 (2023).
Artikel PubMed Google Scholar
Ouyang, L. et al. Sprachmodelle trainieren, um Anweisungen mit menschlichem Feedback zu befolgen. In Advances in Neural Information Processing Systems (Hrsg. Oh, AH et al.) 35, 27730–27744 (2022).
Pilipiszyn, A. GPT-3 treibt die nächste Generation von Apps voran. OpenAI https://openai.com/blog/gpt-3-apps/ (2021).
Burns, C., Ye, H., Klein, D. & Steinhardt, J. Entdecken Sie latentes Wissen in Sprachmodellen ohne Aufsicht. Vorabdruck unter https://arxiv.org/abs/2212.03827 (2022).
Obermeyer, Z., Powers, B., Vogeli, C. & Mullainathan, S. Analyse rassistischer Vorurteile in einem Algorithmus zur Verwaltung der Gesundheit der Bevölkerung. Wissenschaft 366, 447–453 (2019).
Artikel ADS CAS PubMed Google Scholar
Sex- und Gender-Bias in Technologie und künstlicher Intelligenz: Biomedizin und Anwendungen im Gesundheitswesen (Academic, 2022).
Srivastava, A. et al. Jenseits des Nachahmungsspiels: Quantifizierung und Extrapolation der Fähigkeiten von Sprachmodellen. Vorabdruck unter https://arxiv.org/abs/2206.04615 (2022).
Carlini, N. et al. Extrahieren von Trainingsdaten aus großen Sprachmodellen. In Proc. 30. USENIX-Sicherheitssymposium (Hrsg. Bailey, M. & Greenstadt, R.) 6, 2633–2650 (2021).
Branch, HJ et al. Bewertung der Anfälligkeit vorab trainierter Sprachmodelle anhand handgefertigter kontradiktorischer Beispiele. Vorabdruck unter https://arxiv.org/abs/2209.02128 (2022).
Chowdhery, A. et al. PaLM: Skalierung der Sprachmodellierung mit Pfaden. Vorabdruck unter https://arxiv.org/abs/2204.02311 (2022).
Zhang, S. et al. OPT: Offene vorab trainierte Transformer-Sprachmodelle. Vorabdruck unter https://arxiv.org/abs/2205.01068 (2022).
Hoffmann, J. et al. Eine empirische Analyse des rechenoptimalen Trainings großer Sprachmodelle. In Advances in Neural Information Processing Systems (Hrsg. Oh, AH et al.) 35, 30016–30030 (2022).
Chung, HW et al. Skalierung von anweisungsfein abgestimmten Sprachmodellen. Vorabdruck unter https://arxiv.org/abs/2210.11416 (2022).
Kung, TH et al. Leistung von ChatGPT auf USMLE: Potenzial für KI-gestützte medizinische Ausbildung unter Verwendung großer Sprachmodelle. PLoS Dig. Gesundheit 2, 2 (2023).
Huang, S.-C., Shen, L., Lungren, MP & Yeung, S. GLoRIA: ein multimodales global-lokales Repräsentations-Lernframework für etiketteneffiziente medizinische Bilderkennung. In Proc. IEEE/CVF Int. Konferenz über Computer Vision (Hrsg. Brown, MS et al.) 3942–3951 (2021).
Johnson, AEW et al. MIMIC-IV, ein frei zugänglicher elektronischer Gesundheitsdatensatz. Wissenschaft. Daten 10, 1 (2023).
Artikel PubMed PubMed Central Google Scholar
Sudlow, C. et al. UK Biobank: eine frei zugängliche Ressource zur Identifizierung der Ursachen einer Vielzahl komplexer Krankheiten im mittleren und hohen Alter. PLoS Med. 12, e1001779 (2015).
Artikel PubMed PubMed Central Google Scholar
Gou, J., Yu, B., Maybank, SJ & Tao, D. Wissensdestillation: eine Umfrage. Int. J. Comput. Vis. 129, 1789–1819 (2021).
Artikel Google Scholar
Vegunta, R., Vegunta, R. & Kutti Sridharan, G. Sekundäre aortoduodenale Fistel, die sich als gastrointestinale Blutung und Fungämie äußert. Cureus 11, e5575 (2019).
PubMed PubMed Central Google Scholar
Referenzen herunterladen
Wir danken I. Kohane für die aufschlussreichen Kommentare, die das Manuskript verbessert haben. EJT wird vom National Center for Advancing Translational Sciences Grant UL1TR001114 der National Institutes of Health (NIH) unterstützt. MM wird von der Defense Advanced Research Projects Agency (DARPA) N660011924033 (MCS), dem NIH National Institute of Neurological Disorders and Stroke R61 NS11865, GSK und dem Wu Tsai Neurosciences Institute unterstützt. JL wurde von DARPA unter den Nummern HR00112190039 (TAMI) und N660011924033 (MCS), dem Army Research Office unter den Nummern W911NF-16-1-0342 (MURI) und W911NF-16-1-0171 (DURIP) und der National Science unterstützt Foundation unter den Nummern OAC-1835598 (CINES), OAC-1934578 (HDR) und CCF-1918940 (Expeditions), das NIH unter der Nummer. 3U54HG010426-04S1 (HuBMAP), Stanford Data Science Initiative, Wu Tsai Neurosciences Institute, Amazon, Docomo, GSK, Hitachi, Intel, JPMorgan Chase, Juniper Networks, KDDI, NEC und Toshiba.
Diese Autoren haben gleichermaßen beigetragen: Michael Moor, Oishi Banerjee
Diese Autoren haben diese Arbeit gemeinsam betreut: Eric J. Topol, Pranav Rajpurkar
Fakultät für Informatik, Stanford University, Stanford, CA, USA
Michael Moor & Jure Leskovec
Abteilung für Biomedizinische Informatik, Harvard University, Cambridge, MA, USA
Oishi Banerjee und Pranav Rajpurkar
Institut für Gesundheitspolitik, -management und -bewertung, Dalla Lana School of Public Health, University of Toronto, Toronto, Ontario, Kanada
Zahra Shakeri Hossein Abad
Medizinische Fakultät der Yale University, Zentrum für Ergebnisforschung und -bewertung, Yale New Haven Hospital, New Haven, CT, USA
Harlan M. Krumholz
Scripps Research Translational Institute, La Jolla, Kalifornien, USA
Eric J. Topol
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
PR konzipierte die Studie. MM, OB, EJT und PR haben den Übersichtsartikel entworfen. MM und OB leisteten wesentliche Beiträge zur Synthese und zum Verfassen des Artikels. ZSHA und MM haben die Illustrationen entworfen und umgesetzt. Alle Autoren gaben kritisches Feedback und trugen wesentlich zur Überarbeitung des Manuskripts bei.
Korrespondenz mit Eric J. Topol oder Pranav Rajpurkar.
In den letzten drei Jahren erhielt HMK Ausgaben und/oder persönliche Honorare von UnitedHealth, Element Science, Eyedentifeye und F-Prime; ist Mitbegründer von Refactor Health und HugoHealth; und ist mit Verträgen verbunden, über das Yale New Haven Hospital, von den Centers for Medicare & Medicaid Services und über die Yale University von der Food and Drug Administration, Johnson & Johnson, Google und Pfizer. Die anderen Autoren erklären keine konkurrierenden Interessen.
Nature dankt Arman Cohan, Joseph Ledsam und Jenna Wiens für ihren Beitrag zum Peer-Review dieser Arbeit.
Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.
Springer Nature oder sein Lizenzgeber (z. B. eine Gesellschaft oder ein anderer Partner) besitzen die ausschließlichen Rechte an diesem Artikel im Rahmen einer Veröffentlichungsvereinbarung mit dem Autor bzw. den Autoren oder anderen Rechteinhabern. Die Selbstarchivierung der akzeptierten Manuskriptversion dieses Artikels durch den Autor unterliegt ausschließlich den Bedingungen dieser Veröffentlichungsvereinbarung und geltendem Recht.
Nachdrucke und Genehmigungen
Moor, M., Banerjee, O., Abad, ZSH et al. Grundlagenmodelle für generalistische medizinische künstliche Intelligenz. Natur 616, 259–265 (2023). https://doi.org/10.1038/s41586-023-05881-4
Zitat herunterladen
Eingegangen: 3. November 2022
Angenommen: 22. Februar 2023
Veröffentlicht: 12. April 2023
Ausgabedatum: 13. April 2023
DOI: https://doi.org/10.1038/s41586-023-05881-4
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Auge (2023)
npj Precision Oncology (2023)
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.