Mar 08, 2023
Maschinelles Lernen für Kliniker wichtig machen: Modellumsetzbarkeit bei medizinischen Entscheidungen
npj Digital Medicine Band
npj Digital Medicine Band 6, Artikelnummer: 7 (2023) Diesen Artikel zitieren
4602 Zugriffe
1 Zitate
23 Altmetrisch
Details zu den Metriken
Maschinelles Lernen (ML) hat das Potenzial, die Patientenversorgung und -ergebnisse zu verändern. Es gibt jedoch wichtige Unterschiede zwischen der Messung der Leistung von ML-Modellen in silico und der Nützlichkeit am Point-of-Care. Eine Linse zur Bewertung von Modellen während der frühen Entwicklung ist die Umsetzbarkeit, die derzeit unterbewertet wird. Wir schlagen eine Metrik für die Umsetzbarkeit vor, die vor der Bewertung der Kalibrierung und letztendlich der Analyse der Entscheidungskurve und der Berechnung des Nettonutzens verwendet werden soll. Unsere Metrik sollte als Teil einer übergreifenden Anstrengung betrachtet werden, die Anzahl pragmatischer Tools zu erhöhen, die die möglichen klinischen Auswirkungen eines Modells identifizieren.
Es besteht großes Interesse daran, maschinelles Lernen (ML) auf die vielen ungelösten Probleme im Gesundheitswesen anzuwenden. Veröffentlichte Modelle können das Bewusstsein von Ärzten stärken, diagnostische Aufgaben durchführen, klinisch relevante Ereignisse vorhersagen und den klinischen Entscheidungsprozess leiten1. Trotz enormer Versprechen und Investitionen wurden diese Modelle jedoch nur in relativ begrenztem Umfang auf den Point-of-Care übertragen2. Dieses Versäumnis bei der Umsetzung ist problematisch, da es die Fähigkeit einschränkt, die Wirksamkeit des Modells anhand realer Ergebnisse zu bewerten.
Die Gründe für die mangelnde ML-Einführung sind multifaktoriell3. Neben Ressourcenbeschränkungen (z. B. mangelnde Datenverfügbarkeit, technische Infrastruktur, bestimmte Therapieoptionen und klinische Champions) könnte ein wichtiges Hindernis für die Einführung von ML darin bestehen, dass viele Metriken, die derzeit zur Bewertung und Berichterstattung der Modellleistung verwendet werden (z. B. F1-Score, Bereich unter der Betriebskurve des Empfängers, Kalibrierung, Unterscheidung usw.) spiegeln nicht wider, wie ein Modell die medizinische Entscheidungsfindung verbessern würde4. Diese Beschäftigung mit der Optimierung traditioneller Leistungsmetriken anstelle klinisch anwendbarerer ist eine verpasste Gelegenheit zu verstehen, ob ein Modell für Kliniker, die mit einem klinischen Dilemma konfrontiert sind, wahrscheinlich umsetzbar ist.
Wir betrachten die Umsetzbarkeit als ein Merkmal von Modellen, das ihre Fähigkeit widerspiegelt, die medizinische Entscheidungsfindung im Vergleich zum alleinigen Urteil des Arztes zu verbessern. Die beste Einzelmetrik zur Messung des klinischen Nutzens eines Modells ist der Nettonutzen5, der die Beziehung zwischen Nutzen und Schaden eines Modells über eine Reihe von Wahrscheinlichkeitsschwellenwerten für Entscheidung und Erkrankung schätzt. Es können Entscheidungskurven erstellt werden, die abschätzen, ob ML oder andere Vorhersagemodelle im Vergleich zu anderen Modellen oder anderen Strategien zum Testen/Behandeln (z. B. alle Patienten testen/behandeln) von höherem Nutzen (d. h. Nettonutzen) wären, wenn sie umgesetzt würden. Wenn ein bestimmtes Modell im Vergleich zu Alternativen einen höheren Nettonutzen aufweist, egal wie groß der Unterschied ist, dann würde die Verwendung des Modells zur relevanten klinischen Entscheidung die klinischen Ergebnisse im Vergleich zu Alternativen verbessern. Leider ist der Nettonutzen derzeit eine zu wenig genutzte Messgröße, und wir sind der Meinung, dass er für fast jedes ML-Modell angegeben werden sollte, damit die Leser seinen potenziellen Nutzen am Krankenbett besser verstehen können.
Die Entscheidungskurvenanalyse soll jedoch in der Endphase der Modellbewertung auf verfeinerte Modelle angewendet werden. Daher wird es während der frühen Modellentwicklung nicht routinemäßig verwendet. In diesem Artikel wird eine Metrik vorgeschlagen, die dabei helfen kann, die Umsetzbarkeit eines Modells frühzeitig in der Entwicklung zu ermitteln, bevor die Kalibrierung ausgewertet und schließlich die Entscheidungskurve analysiert und der Nettonutzen berechnet wird. Unsere Absicht besteht nicht darin, herkömmliche Messgrößen der Modellleistung zu ersetzen, da diese für den klinischen Nutzen notwendig (aber nicht ausreichend) sind und auch nicht den Nettonutzen ersetzen. Wir betrachten unsere Metrik vielmehr als einen klinisch orientierten Filter, den einige Modelle frühzeitig während der Modellentwicklung durchlaufen sollten. Im weiteren Sinne möchten wir die verfügbaren Tools erweitern, mit denen die potenziellen klinischen Auswirkungen eines Modells ganzheitlich bewertet werden können.
Wenn wir die Umsetzbarkeit als ein Merkmal von Modellen definieren, das ihre Fähigkeit widerspiegelt, die medizinische Entscheidungsfindung im Vergleich zum alleinigen Urteil des Arztes zu verbessern, wie könnte dann umsetzbare ML die medizinische Entscheidungsfindung verbessern?
Stellen Sie sich vor, ein Arzt muss für einen schwerkranken Patienten mit Fieber eine Diagnose stellen und dann auf der Grundlage dieser Diagnose eine geeignete Behandlungssequenz auswählen. Ärzte ordnen vernünftige Diagnosen in der Regel zuerst in der Reihenfolge ihrer Wahrscheinlichkeit in einer „Differenzialdiagnose“-Liste ein, die auf einem komplexen Prozess der Zusammenstellung, Filterung und Gewichtung von Daten basiert, der oft fehlerhaft ist. Beispielsweise könnte die klinische Anamnese unvollständig sein, die körperliche Untersuchung könnte unzuverlässig oder irreführend sein6,7 und Tests könnten unspezifisch abnormal, ungenau oder nicht diagnostisch sein8, sodass die wahrscheinlichste Diagnose auf der Liste der Differentialdiagnosen falsch ist bis zu 40 % der Zeit9. Auch wenn der Arzt die richtige(n) Diagnose(n) auswählt, muss er nun entscheiden, welche Behandlungen er verschreibt und in welcher Reihenfolge. Diese Entscheidung wird häufig durch mehrere potenzielle Modifikatoren auf Patientenebene (z. B. Schwere der Erkrankung, Demografie, Komorbiditäten, Nebenwirkungsprofile der Behandlung), Anbieterebene (z. B. Rolle, Vorschulung, Erfahrung, Vorurteile) und Systemebene erschwert (z. B. Zugang zu bestimmten Behandlungen, Behandlungskosten). Populationsbasierte vergleichende Wirksamkeitsstudien und Leitlinien können zwar einige Orientierungshilfen bieten, ihre Anwendung auf einzelne Fälle kann jedoch eine Herausforderung darstellen10 und es bestehen weiterhin erhebliche Unterschiede in der Praxis und den Ergebnissen selbst bei häufigen klinischen Problemen11.
Ob in der „Diagnose“- oder „Maßnahme“-Phase der medizinischen Entscheidungsfindung, das oben dargestellte klinische Dilemma ist voller Unsicherheiten. Übermäßige Unsicherheit bei der medizinischen Entscheidungsfindung ist mit verzögerter Diagnose12, Abweichungen in der Praxis13, Unzufriedenheit/Angst des Arztes14, übermäßigen Tests15,16, medizinischen Fehlern17 und Patientenschäden18 verbunden. Durch die Verringerung der Unsicherheit werden optimale diagnostische oder therapeutische Entscheidungen offengelegt und die Reibung zwischen konkurrierenden Entscheidungen beseitigt, die entweder mit einer Entscheidungslähmung oder einem „Schrotflinten“-Ansatz verbunden sind, der vielen Klinikern bekannt ist (bei dem häufig mehrere Untersuchungs-/Behandlungswege unspezifisch und gleichzeitig verfolgt werden). höhere Kosten und Schaden für den Patienten als eine maßgeschneidertere Strategie). Daher werden Modelle, die die Tendenz haben, die Unsicherheit in komplexen klinischen Szenarien zu reduzieren, von Klinikern möglicherweise hoch geschätzt, es gibt jedoch keine ML-Bewertungsmetriken, die speziell für diesen Zweck entwickelt wurden.
Wir schlagen eine Metrik vor, die die Fähigkeit eines Modells misst, die medizinische Entscheidungsfindung potenziell zu verbessern, indem die Unsicherheit in bestimmten klinischen Szenarien verringert wird. Praktisch stellen wir uns vor, dass diese Metrik in den frühen Phasen der Modellentwicklung (d. h. vor der Berechnung des Nettonutzens) für Mehrklassenmodelle in dynamischen Pflegeumgebungen wie der Intensivpflege verwendet wird, die im Gesundheitswesen immer häufiger vorkommen19,20,21,22,23.
Um unsere Metrik mathematisch einzuführen, behaupten wir zunächst, dass die Verringerung der Unsicherheit bei der medizinischen Entscheidungsfindung die Überlegungen eines teilweise beobachtbaren Markov-Entscheidungsprozesses (POMDP) widerspiegeln könnte. In einem POMDP-Rahmen versucht der Kliniker, die „richtige“ Diagnose (in seinem Glaubenszustand) und die „optimale“ Behandlung zu bestimmen, indem er die Ergebnisse einer bestimmten ergriffenen Maßnahme vorhersagt. Daher gibt es zwei wichtige Wahrscheinlichkeitsverteilungen: eine in der Diagnosephase, in der der Kliniker versucht, die Verteilung möglicher Diagnosen zu klären, und eine zweite in der Behandlungsphase, in der der Kliniker versucht, die Verteilung zukünftiger Zustände bei gegebenen Maßnahmen zu klären (d. h , Behandlungen) gewählt. Umsetzbares ML sollte die Unsicherheit dieser Verteilungen verringern.
Der Grad der Unsicherheitsreduzierung in diesen Schlüsselverteilungen kann anhand der Entropie quantifiziert werden. Entropie ist ein messbares Konzept aus der Informationstheorie, das den Grad der Unsicherheit für die möglichen Ergebnisse einer Zufallsvariablen quantifiziert24. Wir schlagen vor, dass Ärzte die Entropiereduzierung wertschätzen könnten, und unsere Umsetzbarkeitsmetrik basiert daher auf dem Prinzip, dass die Umsetzbarkeit mit der Fähigkeit von ML zunimmt, die Entropie von Wahrscheinlichkeitsverteilungen, die für die medizinische Entscheidungsfindung von zentraler Bedeutung sind, schrittweise zu verringern (Abb. 1).
Die Umsetzbarkeit nimmt typischerweise mit abnehmender Entropie der Wahrscheinlichkeitsverteilung der diagnostischen Möglichkeit und/oder der Wahrscheinlichkeitsverteilung des bedingten zukünftigen Zustands in Schlüsselphasen der medizinischen Entscheidungsfindung zu. S1 Zustand 1, S2 Zustand 2, S3 Zustand 3, S4 Zustand 4, Sn der N-te Zustand.
Zurück zum Multiklassenmodell, das die Diagnose bei einem kritisch erkrankten Patienten mit Fieber vorhersagt (unter einer Liste möglicher Diagnosen wie Infektion, Malignität, Herzinsuffizienz, Medikamentenfieber usw.): Ein ML-Forscher könnte die folgende Gleichung verwenden. Die Gleichung dient der Veranschaulichung und berücksichtigt, dass zusätzliche Daten erforderlich sind, um die sinnvollen Diagnosen in der Differenzialdiagnoseliste und ihre Grundwahrscheinlichkeiten zu bestimmen. Dieses Modell „nur der Arzt“ könnte dadurch erreicht werden, dass eine Stichprobe von Ärzten gebeten wird, Szenarien in Echtzeit oder retrospektiv zu bewerten, um sinnvolle diagnostische Möglichkeiten und deren Wahrscheinlichkeiten auf der Grundlage verfügbarer klinischer Daten zu ermitteln.
Für jede Stichprobe in einem Testdatensatz wird die Entropie der Ausgabe des Kandidatenmodells (d. h. die Wahrscheinlichkeitsverteilung der vorhergesagten Diagnosen) berechnet und mit der Entropie der Ausgabe des Referenzmodells verglichen, bei dem es sich standardmäßig um das Modell nur für den Arzt handelt Es können aber auch andere ML-Modelle sein. Die Unterschiede werden über alle Stichproben gemittelt, um die Nettoreduktion der Entropie (ML – Referenz) zu bestimmen, wie unten dargestellt, wobei die für POMDPs übliche Notation verwendet wird:
(1) Modell „Klinik allein“:
(2) Mit ML-Modell 1:
(3) Mit ML-Modell 2:
Dabei ist \(s_t \in S\) der Grundzustand des Patienten (z. B. eine Infektion) zum Zeitpunkt t innerhalb eines Bereichs S, der einer Menge aller vernünftigerweise möglichen Zustände entspricht (z. B. verschiedene Ursachen von Fieber, einschließlich, aber nicht beschränkt auf, Infektionen). ) und \(o_t \in O\)sind die klinischen Beobachtungen (z. B. frühere Diagnosen und Krankengeschichte, aktuelle körperliche Untersuchung, Labordaten, Bildgebungsdaten usw.) zum Zeitpunkt t innerhalb einer Domäne O, die der Menge aller möglichen entspricht Beobachtungen.
Daher kann die Umsetzbarkeit des Kandidaten-ML-Modells in der Diagnosephase (d. h. im aktuellen Zustand) (Δs) wie folgt quantifiziert werden: \(\Delta ^{{{s}}} = {{{H}}}^{{ {s}}}_{{{0}}} - {{{H}}}^{{{s}}}_{{{m}}}\), wobei \({{{H}}} _{{{0}}}^{{{s}}}\) ist die Entropie, die der Referenzverteilung entspricht (typischerweise das Clinician-Alone-Modell, entsprechend \({{{H}}}^{{{s}) }}_{{{C}}}\)).
Grundsätzlich lernt das Modell anhand der Beobachtungen die bedingte Verteilung der verschiedenen möglichen Grunddiagnosen (siehe Beispielrechnung in ergänzender Abbildung 1). Das Ausmaß der Umsetzbarkeit eines Modells ist die messbare Verringerung der Entropie, wenn man das ML-Modell im Vergleich zum Referenzmodell verwendet.
Um mit dem obigen klinischen Beispiel fortzufahren, muss der Arzt dann eine durchzuführende Aktion auswählen, zum Beispiel aus einer Reihe sinnvoller Antibiotika-Therapien, welches Antibiotika-Regime er verschreiben möchte. Jedes Zustands-Aktionspaar wird probabilistisch auf verschiedene potenzielle zukünftige Zustände abgebildet, die daher eine Verteilungsentropie aufweisen. In Anerkennung der Tatsache, dass zusätzliche Daten erforderlich sind, um die relevanten Übergangswahrscheinlichkeiten \(p^ \ast (s_{t + 1}|s_{t,}a_t)\) (d. h. Nutzen:Risiko-Verhältnisse) für jedes Zustand-Aktions-Paar zu definieren ( (die idealerweise von Klinikern geschätzt werden können oder empirisch abgeleitete Daten aus repräsentativen retrospektiven Kohorten sind) könnte ein ML-Forscher eine Bewertung der Umsetzbarkeit von in Frage kommenden Mehrklassenmodellen durchführen. Die Bewertung der Umsetzbarkeit basiert auf dem Vergleich der Entropien der zukünftigen Zustandsverteilungen mit und ohne ML und wird auf ähnliche Weise wie in der Diagnosephase berechnet, in der Unterschiede in der Verteilungsentropie (Referenzmodell – ML-Kandidatenmodell) für jede Stichprobe im Test berechnet werden Datensatz erfasst und dann gemittelt. Die folgende Gleichung oder eine Variation davon könnte verwendet werden, um die Umsetzbarkeit während der Behandlungsphase der Pflege zu bestimmen:
Zukünftige Zustandswahrscheinlichkeitsverteilung (P (st+1|st)
(4) Ohne ML (z. B. Maßnahmen/Richtlinien allein durch den Arzt):
(5) Mit ML (z. B. vom trainierten Modell empfohlene Maßnahmen/Richtlinien):
Dabei ist St+1 der gewünschte zukünftige Zustand (z. B. Infektionsauflösung), St der aktuelle Zustand (z. B. Fieber) zum Zeitpunkt t und \(a_t \in A\) die zum Zeitpunkt t innerhalb einer Domäne A durchgeführte Aktion entsprechend einer Reihe vernünftiger möglicher Maßnahmen (z. B. verschiedene Antibiotika-Therapien), \(\pi _c(a_t|s_t)\) ist die vom Kliniker zum Zeitpunkt t gewählte Richtlinie (z. B. Behandlung mit Antibiotika-Therapie A) und \( \pi _m(a_t|s_t)\) ist die von ML zum Zeitpunkt t empfohlene Richtlinie (z. B. Behandlung mit Antibiotika-Regime B).
Entropie (H) der zukünftigen Zustandswahrscheinlichkeitsverteilung
Jede zukünftige Zustandswahrscheinlichkeitsverteilung ergibt sich aus einer Verteilung möglicher zukünftiger Zustände mit zugehöriger Entropie, die wir wie folgt veranschaulichen:
(6) Ohne ML:
(7) Mit ML:
Daher kann die Umsetzbarkeit des Kandidaten-ML-Modells in der Aktionsphase (d. h. im zukünftigen Zustand) (Δa) als \(\Delta ^{{{a}}} = {{{H}}}^{{{ a}}}_0 - {{{H}}}^{{a}}_{{{m}}}\), wobei \({{{H}}}_0^{{{a}}}\ ) ist die Entropie, die der Referenzverteilung entspricht (typischerweise das Clinician-alone-Modell).
Das Modell lernt im Wesentlichen die bedingte Verteilung der zukünftigen Zustände anhand der im aktuellen Zustand ergriffenen Maßnahmen, und die Umsetzbarkeit ist die messbare Verringerung der Entropie, wenn man das ML-Modell im Vergleich zum Referenzmodell (normalerweise nur der Arzt) verwendet.
Trotz der enormen Aussichten ist der Einsatz von ML für anspruchsvolle Entscheidungen in der klinischen Praxis nach wie vor relativ begrenzt. Ein Hauptziel dieses Papiers bestand darin, an einer intensiven Diskussion darüber teilzunehmen, welche pragmatischen Metriken dabei helfen könnten, den klinischen Nutzen direkter zu bewerten als herkömmliche Metriken der Modellleistung. Der Nettonutzen ist die mit Abstand beste Messgröße zur Bewertung der klinischen Wirkung eines Modells am Krankenbett und sollte häufiger gemessen und berichtet werden, als dies derzeit in der ML-Literatur zu finden ist. Die Entscheidungskurvenanalyse sollte jedoch in den letzten Phasen der Modellbewertung durchgeführt werden. Wir schlagen ein weiteres Tool vor, das für die frühe Modellentwicklung entwickelt wurde und für klinische Endbenutzer von ML, das für komplexe Mehrklassenalgorithmen in dynamischen Pflegeumgebungen entwickelt wurde, von Nutzen sein kann. Wenn Hunderte von Modellen oder Parametrisierungen von Modellen kalibriert oder optimiert werden, glauben wir, dass Forscher einen weiteren klinisch orientierten Filter anwenden könnten, indem sie fragen: Inwieweit könnten Kandidatenmodelle umsetzbar sein, d. h. die medizinische Entscheidungsfindung im Vergleich zum alleinigen Urteil des Klinikers verbessern? ? Wir argumentierten, dass die Umsetzbarkeit mit der Unsicherheitsreduzierung zusammenhängen könnte und dass die Unsicherheitsreduzierung mithilfe der Entropie gemessen werden könnte, die auf wichtige Wahrscheinlichkeitsverteilungen in einem POMDP-Framework angewendet wird.
Das Rahmenwerk für Umsetzbarkeit und Entropiereduzierung ist nicht perfekt, und wir erkennen wichtige Einschränkungen an, die eine spätere Verwendung während der Modellentwicklung (z. B. wenn der Nettonutzen berechnet werden soll) oder isoliert ausschließen. Wir erkennen zum Beispiel an, dass ein Modell, das die Entropie nicht signifikant reduziert, nicht zwangsläufig keinen klinischen Nutzen hat, und umgekehrt kann ein Modell, das die Entropie signifikant reduziert, aber ansonsten schlecht abschneidet, schlicht und ergreifend falsch sein. Darüber hinaus ist die Reduzierung der Unsicherheit wahrscheinlich wichtig für die medizinische Entscheidungsfindung, aber die Linie, die die Reduzierung der Unsicherheit und die medizinische Entscheidungsfindung verbindet, ist nicht absolut und linear, sondern eher unvollständig. Selbst robuste Modelle, die im Vergleich zu anderen Modellen oder aufgrund der Beurteilung durch den Arzt eine niedrigere Entropie aufweisen, können beispielsweise aus verschiedenen Gründen möglicherweise nicht umsetzbar sein (z. B. ändert eine Differentialdiagnose mit niedrigerer Entropie den Testansatz möglicherweise nicht, eine zukünftige Zustandsverteilung mit niedrigerer Entropie möglicherweise nicht). klinisch veränderbar und daher wird keine Aktion durchgeführt) und einige Modelle, die die Entropie erhöhen, können aus verschiedenen Gründen umsetzbar sein (z. B. Modelle, die nach Diagnosen „screenen“ und mehr Unsicherheit einführen, indem sie die Wahrscheinlichkeit von Krankheiten für Patienten, die davon betroffen sind, entsprechend erhöhen niedriges Grundrisiko). Wir erkennen an, dass unsere Metrik auch durch unsere willkürliche Entscheidung, die Entropiereduzierung künftiger Zustandsverteilungen anzustreben, beeinflusst werden kann, während andere möglicherweise auf die Entropiereduzierung anderer Richtlinien abzielten. Schließlich reagiert unsere Metrik möglicherweise empfindlich auf Modellierungstechniken, die sich auf die Komplexität von Wahrscheinlichkeitsverteilungen auswirken. Ein einfaches Modell, das die Wahrscheinlichkeit einer bestimmten Diagnose immer mit 100 % vorhersagt (und andere vernünftige Diagnosen mit 0 %), scheint unter Verwendung des vorgeschlagenen Rahmens umsetzbarer zu sein als ein komplizierteres Modell, das einen größeren Bereich des Wahrscheinlichkeitsraums abdeckt. Angesichts dieser Einschränkungen bekräftigen wir, dass unsere Umsetzbarkeitsmetrik als Instrument betrachtet werden sollte, das Aufschluss darüber geben kann, welche Modelle vor der Berechnung des Nettonutzens und dem eventuellen Einsatz am Krankenbett einer strengeren Bewertung unterzogen werden sollten.
Allgemeiner und wichtiger: Unser Fokus lag nicht darauf, die einzige, perfekte oder beste Möglichkeit zur Messung der Umsetzbarkeit vorzuschlagen, noch darauf, dass Bewertungen der Umsetzbarkeit bestehende Kennzahlen wie den Nettonutzen ersetzen sollten. Vielmehr versuchen wir, notwendige Gespräche über die Bedeutung der Modellumsetzbarkeit anzuregen. Wir wollten wichtige Elemente dieses Gesprächs einführen, indem wir die Bedeutung der Unsicherheit bei der medizinischen Entscheidungsfindung für klinische Probleme und Umgebungen darstellen, die unweigerlich Gegenstand weiterer Untersuchungen in der ML-Community sein werden. Wir schlagen vor, dass es wichtig ist, die Fähigkeit eines Modells zu messen, es „richtig“ oder „falsch“ zu machen (d. h. echte positive Ergebnisse, falsch positive Ergebnisse usw.), aber auch eine Möglichkeit, die Konsequenzen dieser Fähigkeit zu verstehen (d. h. Nettonutzen). und die Verteilung der Ergebnisse in ML mit mehreren Klassen unter dem Gesichtspunkt der Unsicherheit und der medizinischen Entscheidungsfindung. Unser Ansatz oder ein ähnlicher Ansatz könnte wichtige Forschungsrichtungen auf diesem Gebiet vorantreiben. Kann die Quantifizierung der Unsicherheitsreduzierung beispielsweise die Berechnung des Nettonutzens im Sonderfall komplexer Mehrklassenprobleme verbessern? Könnten ML-Teams Projektvorschläge häufiger unter dem Gesichtspunkt der Unsicherheit bewerten und mehr Ressourcen für Probleme bereitstellen, die mehr klinische Unsicherheit hervorrufen, als für Probleme, die weniger klinische Unsicherheit hervorrufen? Weitere Forschung ist erforderlich und sollte aktiv gefördert werden.
Eine Zukunft, die durch eine stärkere Betonung der Umsetzbarkeit von Modellen gekennzeichnet ist, steht vielleicht nicht unmittelbar bevor, aber wir machen einen Vorschlag für Fortschritte in diese Richtung. Um die Leistungsfähigkeit von ML zum Nutzen von Ärzten und Patienten freizusetzen, ist ein breiteres Arsenal an Werkzeugen zur Bewertung der potenziellen Auswirkungen eines Modells am Krankenbett erforderlich.
Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Research Reporting Summary.
Deo, RC Maschinelles Lernen in der Medizin. Auflage 132, 1920–1930 (2015).
Artikel Google Scholar
Emanuel, EJ & Wachter, RM Künstliche Intelligenz im Gesundheitswesen: Wird der Wert dem Hype entsprechen? JAMA 321, 2281–2282 (2019).
Artikel Google Scholar
Kelly, CJ, Karthikesalingam, A., Suleyman, M., Corrado, G. & King, D. Schlüsselherausforderungen für die Erzielung klinischer Wirkung mit künstlicher Intelligenz. BMC Med. 17, 195–195 (2019).
Artikel Google Scholar
Shah, NH, Milstein, A. & Bagley Ph, DS Modelle für maschinelles Lernen klinisch nutzbar machen. JAMA 322, 1351–1352 (2019).
Vickers, AJ, Van Calster, B. & Steyerberg, EW Net-Benefit-Ansätze für die Bewertung von Vorhersagemodellen, molekularen Markern und diagnostischen Tests. BMJ 352, i6 (2016).
Artikel Google Scholar
Razavi, A., Newth, CJL, Khemani, RG, Beltramo, F. & Ross, PA Herzzeitvolumen und systemischer Gefäßwiderstand: klinische Bewertung im Vergleich zu einer nichtinvasiven objektiven Messung bei Kindern mit Schock. J. Krit. Care 39, 6–10 (2017).
Artikel Google Scholar
Walker, SB et al. Klinische Anzeichen zur Kategorisierung des Schocks und gezielte vasoaktive Medikamente bei warmem oder kaltem septischem Schock bei Kindern*. Pädiatr. Krit. Pflege Med. 21, 1051 (2020).
Artikel Google Scholar
Balogh, EP, Miller, BT, Ball, JR Committee on Diagnostic Error, Board on Health Care Services, et al. Überblick über Diagnosefehler im Gesundheitswesen. (National Academies Press, USA, 2015).
Podbregar, M. et al. Sollten wir unsere klinische Diagnosesicherheit durch Autopsien bestätigen? Intensivmedizin. 27, 1750–1755 (2001).
Artikel CAS Google Scholar
Vincent, J.-L. Die kommende Ära der Präzisionsmedizin für die Intensivpflege. Krit. Pflege 21, 314 (2017).
Artikel Google Scholar
Kerlin, MP et al. Unterschiede auf Arztebene bei den Ergebnissen mechanisch beatmeter Patienten. Ann. Bin. Thorak. Soc. 15, 371–379 (2018).
Artikel Google Scholar
Farnan, JM, Johnson, JK, Meltzer, DO, Humphrey, HJ & Arora, VM Unsicherheit der Bewohner bei der klinischen Entscheidungsfindung und Auswirkungen auf die Patientenversorgung: eine qualitative Studie. Qual. Sicher. Health Care 17, 122–126 (2008).
Artikel CAS Google Scholar
Bhise, V. et al. Definition und Messung diagnostischer Unsicherheit in der Medizin: eine systematische Überprüfung. J. Gen. Praktikant. Med. 33, 103–115 (2018).
Artikel Google Scholar
Bovier, PA & Perneger, TV Stress durch Unsicherheit vom Abschluss bis zur Pensionierung – eine bevölkerungsbasierte Studie unter Schweizer Ärzten. J. Gen. Praktikant. Med. 22, 632–638 (2007).
Artikel Google Scholar
Zwaan, L. & Singh, H. Die Herausforderungen bei der Definition und Messung diagnostischer Fehler. Diagnose 2, 97–103 (2015).
Artikel Google Scholar
Kassirer, JP Unser hartnäckiges Streben nach diagnostischer Sicherheit. Eine Ursache für übermäßige Tests. N. engl. J. Med. 320, 1489–1491 (1989).
Artikel CAS Google Scholar
Zavala, AM, Day, GE, Plummer, D. & Bamford-Wade, A. Entscheidungsfindung unter Druck: medizinische Fehler in unsicheren und dynamischen Umgebungen. Aust. Health Rev. 42, 395–402 (2018).
Artikel Google Scholar
Green, SM et al. Klinische Unsicherheit, diagnostische Genauigkeit und Ergebnisse bei Patienten in der Notaufnahme mit Dyspnoe. Bogen. Praktikant. Med. 168, 741–748 (2008).
Artikel Google Scholar
Peng, X. et al. Verbesserung der Sepsis-Behandlungsstrategien durch Kombination von tiefem und kernbasiertem Verstärkungslernen. AMIA Annu. Symp. Proz. 2018, 887–896 (2018).
Google Scholar
Peine, A. et al. Entwicklung und Validierung eines Reinforcement-Learning-Algorithmus zur dynamischen Optimierung der mechanischen Beatmung in der Intensivpflege. NPJ-Ziffer. Med. 4, 32 (2021).
Artikel Google Scholar
Nanayakkara, T., Clermont, G., Langmead, CJ & Swigon, D. Vereinheitlichung der kardiovaskulären Modellierung mit tiefem Verstärkungslernen für eine unsichere Steuerung der Sepsisbehandlung. PLoS-Ziffer. Gesundheit 1, e0000012 (2022).
Artikel Google Scholar
Komorowski, M., Celi, LA, Badawi, O., Gordon, AC & Faisal, AA Der Kliniker für künstliche Intelligenz lernt optimale Behandlungsstrategien für Sepsis auf der Intensivstation. Nat. Med. 24, 1716–1720 (2018).
Artikel CAS Google Scholar
Futoma, J., Masood, MA & Doshi-Velez, F. Identifizierung verschiedener, wirksamer Behandlungen für akute Hypotonie mit SODA-RL: sicher optimiertes, vielfältiges, genaues Verstärkungslernen. AMIA Jt. Summits Transl. Wissenschaft. Proz. 2020, 181–190 (2020).
Google Scholar
Krause, P. Informationstheorie und medizinische Entscheidungsfindung. Zucht. Gesundheitstechnologie. Informieren. 263, 23–34 (2019).
Google Scholar
Referenzen herunterladen
Diese Arbeit wird von William G. Williams Direktorium am Hospital for Sick Children (Dr. Mazwi) und vom Center for Research on Computation and Society (CRCS) an der Harvard John A. Paulson School of Engineering and Applied Sciences (Dr. Joshi).
Diese Autoren haben gleichermaßen beigetragen: Mjaye L. Mazwi, Danny Eytan.
Abteilung für Intensivmedizin und Labatt Family Heart Centre, The Hospital for Sick Children, Toronto, ON, Kanada
Daniel E. Ehrmann, Sebastian D. Goodfellow, Mjaye L. Mazwi und Danny Eytan
Congenital Heart Center am Mott Children's Hospital und der University of Michigan Medical School, Ann Arbor, MI, USA
Daniel E. Ehrmann
Center for Research on Computation on Society, Harvard University, Cambridge, MA, USA
Schalmali Joshi
Fakultät für Angewandte Wissenschaft und Ingenieurwesen, University of Toronto, Toronto, ON, Kanada
Sebastian D. Goodfellow
Abteilung für Pädiatrie, University of Toronto, Toronto, ON, Kanada
Mjaye L. Mazwi
Abteilung für Medizin, Technion, Haifa, Israel
Danny Eytan
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Alle Autoren erfüllten die folgenden Kriterien, wobei die zusätzlichen Beiträge im Folgenden von einzelnen Autoren aufgeführt werden: (1) wesentliche Beiträge zur Konzeption oder Gestaltung des Werks oder zur Erfassung, Analyse oder Interpretation der Daten, (2) Entwurf des Werks oder kritische Überarbeitung desselben für wichtige intellektuelle Inhalte, (3) endgültige Genehmigung der fertigen Version, (4) Verantwortung für alle Aspekte der Arbeit, um sicherzustellen, dass Fragen im Zusammenhang mit der Genauigkeit oder Integrität eines Teils der Arbeit angemessen untersucht und gelöst werden. Ehrmann, Daniel: Literaturrecherche, Hintergrund/Begründung, Verfassen des gesamten oder eines Teils des Manuskripts, kritische Überarbeitung des Manuskripts, Bearbeitung des Manuskripts. Joshi, Shalmali: Verfassen des Manuskripts ganz oder teilweise, kritische Überarbeitung des Manuskripts, Bearbeitung des Manuskripts. Goodfellow, Sebastian: Hintergrund/Begründung, kritische Überarbeitung des Manuskripts, Bearbeitung des Manuskripts. Mazwi, Mjaye: Hintergrund/Begründung, kritische Überarbeitung des Manuskripts, Bearbeitung des Manuskripts. Eytan, Danny: Hintergrund/Begründung, kritische Überarbeitung des Manuskripts, Bearbeitung des Manuskripts.
Korrespondenz mit Daniel E. Ehrmann.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Ehrmann, DE, Joshi, S., Goodfellow, SD et al. Maschinelles Lernen für Kliniker wichtig machen: Modellumsetzbarkeit bei der medizinischen Entscheidungsfindung. npj Ziffer. Med. 6, 7 (2023). https://doi.org/10.1038/s41746-023-00753-7
Zitat herunterladen
Eingegangen: 01. April 2022
Angenommen: 13. Januar 2023
Veröffentlicht: 24. Januar 2023
DOI: https://doi.org/10.1038/s41746-023-00753-7
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt