Mar 07, 2023
Schritte zur Vermeidung von Überbeanspruchung und Missbrauch von maschinellem Lernen in der klinischen Forschung
Naturmedizin Band 28,
Nature Medicine Band 28, Seiten 1996–1999 (2022)Diesen Artikel zitieren
28.000 Zugriffe
11 Zitate
291 Altmetrisch
Details zu den Metriken
Algorithmen für maschinelles Lernen sind ein leistungsstarkes Werkzeug im Gesundheitswesen, bieten jedoch manchmal keine bessere Leistung als herkömmliche statistische Techniken. Es sollte sichergestellt werden, dass Algorithmen nicht überbeansprucht oder missbraucht werden, um den Patienten einen echten Nutzen zu bieten.
Die mangelhafte Leistung vieler Systeme für maschinelles Lernen (ML) im Gesundheitswesen ist gut dokumentiert1,2. Im Gesundheitswesen, wie auch in anderen Bereichen, können KI-Algorithmen sogar menschliche Vorurteile wie Sexismus und Rassismus aufrechterhalten, wenn sie auf voreingenommenen Datensätzen trainiert werden3.
Angesichts der raschen Verbreitung von künstlicher Intelligenz (KI) und ML in der klinischen Forschung und ihrer zunehmenden Auswirkungen ist die Formulierung von Richtlinien4,5 wie SPIRIT-AI, CONSORT-AI und neuerdings DECIDE-AI zur Regulierung des Einsatzes von ML erforderlich Die klinische Forschung hat dazu beigetragen, eine regulatorische Lücke zu schließen.
Diese Richtlinien für die klinische Forschung betreffen jedoch im Allgemeinen den Einsatz von ML nachträglich, nachdem die Entscheidung getroffen wurde, eine ML-Technik für eine Forschungsstudie zu verwenden. Die Leitlinien stellen keine Fragen zur Notwendigkeit oder Angemessenheit der KI- oder ML-Technik im Gesundheitswesen.
Zu Beginn der COVID-19-Pandemie, vor der weit verbreiteten Einführung zuverlässiger Point-of-Care-Tests zum Nachweis von SARS-CoV-2, war die Entwicklung von ML-Algorithmen zur Abschätzung der Infektionswahrscheinlichkeit ein äußerst aktiver Forschungsbereich. Diese Algorithmen basierten ihre Vorhersagen auf verschiedenen Datenelementen, die in elektronischen Gesundheitsakten erfasst wurden, beispielsweise Röntgenaufnahmen des Brustkorbs.
Trotz ihrer vielversprechenden ersten Validierungsergebnisse konnte der Erfolg zahlreicher künstlicher neuronaler Netze, die auf Röntgenaufnahmen des Brustkorbs trainiert wurden, bei der Anwendung in verschiedenen Krankenhausumgebungen größtenteils nicht reproduziert werden, was teilweise darauf zurückzuführen war, dass die Modelle die wahre zugrunde liegende Pathologie von COVID-19 nicht erlernen oder verstehen konnten. Stattdessen nutzten sie Abkürzungen oder falsche Assoziationen, die biologisch bedeutungslose Variationen in der Bildaufnahme widerspiegelten, wie etwa Lateralitätsmarkierungen, Patientenpositionierung oder Unterschiede in der Röntgenprojektion6. Diese ML-Algorithmen waren nicht erklärbar und schienen zwar auf dem neuesten Stand zu sein, waren jedoch herkömmlichen Diagnosetechniken wie der RT-PCR unterlegen, was ihren Nutzen zunichte machte. Für COVID-19 wurden mehr als 200 Vorhersagemodelle entwickelt, von denen einige ML verwenden, und praktisch alle weisen eine schlechte Berichterstattung und ein hohes Risiko für Verzerrungen7 auf.
Der Begriff „Überbeanspruchung“ bezieht sich auf die unnötige Einführung von KI- oder fortschrittlichen ML-Techniken, wenn bereits alternative, zuverlässige oder überlegene Methoden existieren. In solchen Fällen ist der Einsatz von KI- und ML-Techniken nicht unbedingt unangemessen oder unzumutbar, aber die Begründung für eine solche Forschung ist unklar oder künstlich: Beispielsweise kann eine neuartige Technik vorgeschlagen werden, die keine sinnvollen neuen Antworten liefert.
In vielen klinischen Studien wurden ML-Techniken eingesetzt, um eine respektable oder beeindruckende Leistung zu erzielen, wie die Werte der Fläche unter der Kurve (AUC) zwischen 0,80 und 0,90 oder sogar > 0,90 zeigen (Kasten 1). Eine hohe AUC ist nicht unbedingt ein Qualitätsmerkmal, da das ML-Modell möglicherweise überangepasst ist (Abb. 1). Wenn eine traditionelle Regressionstechnik angewendet und mit ML-Algorithmen verglichen wird, bieten die ausgefeilteren ML-Modelle oft nur geringfügige Genauigkeitsgewinne, was einen fragwürdigen Kompromiss zwischen Modellkomplexität und Genauigkeit darstellt1,2,8,9,10,11,12. Selbst sehr hohe AUCs sind keine Garantie für Robustheit, da eine AUC von 0,99 mit einer Gesamtereignisrate von <1 % möglich ist und dazu führen würde, dass alle negativen Fälle korrekt vorhergesagt werden, während dies bei den wenigen positiven Ereignissen nicht der Fall ist.
Bei einem Datensatz mit Datenpunkten (grüne Punkte) und einem wahren Effekt (schwarze Linie) zielt ein statistisches Modell darauf ab, den wahren Effekt abzuschätzen. Die rote Linie veranschaulicht eine genaue Schätzung, während die blaue Linie ein überangepasstes ML-Modell mit übermäßiger Abhängigkeit von Ausreißern veranschaulicht. Ein solches Modell scheint für diesen bestimmten Datensatz hervorragende Ergebnisse zu liefern, funktioniert jedoch in einem anderen (externen) Datensatz nicht gut.
Es gibt einen wichtigen Unterschied zwischen einer statistisch signifikanten Verbesserung und einer klinisch signifikanten Verbesserung der Modellleistung. ML-Techniken bieten zweifellos leistungsstarke Möglichkeiten zur Bewältigung von Vorhersageproblemen bei Daten mit nichtlinearen oder komplexen, hochdimensionalen Beziehungen (Tabelle 1). Im Gegensatz dazu sind viele einfache medizinische Vorhersageprobleme von Natur aus linear, wobei Merkmale ausgewählt werden, weil sie bekanntermaßen starke Prädiktoren sind, normalerweise auf der Grundlage vorheriger Forschung oder mechanistischer Überlegungen. In diesen Fällen ist es unwahrscheinlich, dass ML-Methoden zu einer wesentlichen Verbesserung der Diskriminierung führen2. Anders als im technischen Umfeld, wo jede Leistungsverbesserung das System als Ganzes verbessern kann, ist es unwahrscheinlich, dass geringfügige Verbesserungen der medizinischen Vorhersagegenauigkeit zu einem Unterschied in der klinischen Wirkung führen.
ML-Techniken sollten vor ihrem Einsatz anhand traditioneller statistischer Methoden evaluiert werden. Wenn das Ziel einer Studie darin besteht, ein Vorhersagemodell zu entwickeln, sollten ML-Algorithmen mit einem vordefinierten Satz traditioneller Regressionstechniken für den Brier-Score verglichen werden (eine Bewertungsmetrik ähnlich dem mittleren quadratischen Fehler, die zur Überprüfung der Güte eines vorhergesagten Wahrscheinlichkeits-Scores verwendet wird). ), Diskriminierung (oder AUC) und Kalibrierung. Anschließend sollte das Modell extern validiert werden. Die Analysemethoden und die Leistungsmetriken, anhand derer sie verglichen werden, sollten in einem prospektiven Studienprotokoll spezifiziert werden und über die Gesamtleistung, Diskriminierung und Kalibrierung hinausgehen und auch Metriken im Zusammenhang mit der Überanpassung umfassen.
Umgekehrt sind einige Algorithmen in der Lage, „Ich weiß nicht“ zu sagen, wenn sie mit unbekannten Daten konfrontiert werden13, eine wichtige, aber oft unterschätzte Ausgabe, da das Wissen, dass eine Vorhersage äußerst unsicher ist, selbst klinisch umsetzbar sein kann.
Wann immer angemessen, sollten (vordefinierte) Sensitivitätsanalysen unter Verwendung traditioneller statistischer Modelle neben ML-Modellen präsentiert werden.
Protokolle sollten nach Möglichkeit veröffentlicht und von Experten begutachtet werden, und die Wahl des Modells sollte dargelegt und begründet werden.
Alle Leistungsparameter des Modells sollten offengelegt werden und idealerweise sollten der Datensatz und das Analyseskript veröffentlicht werden.
Veröffentlichungen, die ML-Algorithmen verwenden, sollten von Haftungsausschlüssen über ihren Entscheidungsprozess begleitet sein und ihre Schlussfolgerungen sollten sorgfältig formuliert werden.
Forscher sollten sich dazu verpflichten, interpretierbare und transparente ML-Algorithmen zu entwickeln, die Checks and Balances unterzogen werden können.
Datensätze sollten auf Quellen von Verzerrungen untersucht und die notwendigen Schritte zur Beseitigung von Verzerrungen ergriffen werden.
Die Art der verwendeten ML-Technik sollte unter Berücksichtigung der Art, Größe und Dimensionalität des verfügbaren Datensatzes ausgewählt werden.
ML-Techniken sollten vermieden werden, wenn es um sehr kleine, aber leicht verfügbare klinische Datensätze geht.
Kliniker und Forscher sollten nach Möglichkeit darauf abzielen, große, harmonisierte multizentrische oder internationale Datensätze mit hochauflösenden Daten zu beschaffen und zu nutzen.
Ein Leitfaden zur Wahl des statistischen Ansatzes, sei es ML oder traditionelle statistische Techniken, würde klinischen Forschern helfen und die richtigen Entscheidungen hervorheben.
Forscher sollten jedes ML-Projekt mit klaren Projektzielen und einer Analyse der Vorteile beginnen, die KI, ML oder herkömmliche statistische Techniken im spezifischen klinischen Anwendungsfall bieten. Unbeaufsichtigte Clusteranalysen eignen sich in der Regel gut zur Entdeckung versteckter Clustermuster, beispielsweise um eine neue molekulare Taxonomie von Krebserkrankungen vorzuschlagen14 oder Subtypen einer psychiatrischen Störung zu definieren15.
Wenn das Ziel einer Studie darin besteht, ein neues prognostisches Nomogramm oder Vorhersagemodell zu entwickeln, gibt es kaum Hinweise darauf, dass ML besser abschneidet als herkömmliche statistische Modelle, selbst wenn es um große und hochdimensionale Datensätze geht1,2,8,9,10,11, 16,17,18. Wenn der Zweck einer Studie darin besteht, einen kausalen Behandlungseffekt einer bestimmten Exposition abzuleiten, liefern viele gut etablierte traditionelle statistische Techniken, wie z. B. die Modellierung von Strukturgleichungen, die Propensity-Score-Methode, die Analyse instrumenteller Variablen und die Regressionsdiskontinuitätsanalyse, leicht interpretierbare und strenge Ergebnisse Schätzungen des Behandlungseffekts.
Im Gegensatz zur Überbeanspruchung bezeichnet der Begriff „Missbrauch“ ungeheuerlichere Verwendungen von ML und reicht von problematischen Methoden, die zu falschen Schlussfolgerungen oder Vorhersagen führen, bis hin zu Anwendungen von ML, die darauf abzielen, die Rolle von Ärzten in Situationen zu ersetzen, die immer noch eine menschliche Eingabe erfordern sollten.
Die wahllose Annahme eines KI-Algorithmus allein aufgrund seiner Leistung, ohne seine internen Abläufe zu hinterfragen, stellt einen Missbrauch von ML19 dar, obwohl fraglich ist, inwieweit jede Entscheidung eines Arztes belastbar erklärbar ist.
Viele Gruppen haben erklärbare ML oder die Einbeziehung kontrafaktischer Argumente gefordert, um Korrelation von Kausalität zu trennen20. Die Medizin sollte auf wissenschaftlichen Erkenntnissen basieren und medizinische Entscheidungen sollten durch transparente und logische Überlegungen untermauert werden, die einer Überprüfung unterzogen werden können. Die Vorstellung einer „Black Box“, die der klinischen Entscheidungsfindung zugrunde liegt, steht im Widerspruch zur modernen medizinischen Praxis und wird angesichts des wachsenden Arsenals an Techniken wie Salienzkarten und generativen kontradiktorischen Netzwerken, die zur Untersuchung der Argumentation eingesetzt werden können, zunehmend unzutreffender hergestellt durch neuronale Netze.
Forscher sollten sich dazu verpflichten, interpretierbare ML-Modelle zu entwickeln, deren Argumentation der Prüfung durch menschliche Experten standhält, und anonymisierte Daten und Skripte weiterzugeben, die eine externe Replikation und Validierung ermöglichen würden. Einige Forscher könnten zu dem Schluss kommen, dass Maschinen Muster in den Daten erkennen können, die das menschliche Gehirn nicht erkennen kann. Doch so wie ein Experte in der Lage sein sollte, seine Denkmuster zu komplexen Themen zu erklären, sollten auch Maschinen in der Lage sein, den Weg zu rechtfertigen, den sie eingeschlagen haben, um bestimmte Muster aufzudecken.
Die Verwendung von ML trotz Datenbeschränkungen, wie z. B. verzerrten Daten und kleinen Datensätzen, ist ein weiterer Missbrauch von KI. Trainingsdaten können verzerrt sein und sexistische und rassistische Annahmen verstärken3,21. Es ist bekannt, dass Deep-Learning-Techniken große Datenmengen erfordern, aber viele Veröffentlichungen in der medizinischen Fachliteratur befassen sich mit Techniken mit viel kleineren Stichproben- und Funktionsumfangsgrößen, als sie normalerweise in anderen Technologiebranchen verfügbar sind. Gut trainierte ML-Algorithmen haben daher möglicherweise keinen Zugriff auf eine vollständige Beschreibung des interessierenden klinischen Problems.
Metas Facebook trainierte seine Gesichtserkennungssoftware anhand von Fotos von mehr als einer Milliarde Nutzern; Entwickler autonomer Automobile nutzen Milliarden Kilometer an Straßenverkehrsvideoaufzeichnungen von Hunderttausenden einzelnen Fahrern, um Software zur Erkennung von Straßenobjekten zu entwickeln; und DeepBlue und AlphaGo lernen aus Millionen oder Milliarden gespielten Schach- und Go-Partien. Im Gegensatz dazu verwenden klinische Forschungsstudien mit KI im Allgemeinen Tausende oder Hunderte von radiologischen und pathologischen Bildern22, und Chirurgen-Wissenschaftler, die Software für die Erkennung chirurgischer Phasen entwickeln, arbeiten oft mit nicht mehr als mehreren Dutzend chirurgischen Videos23. Diese Beobachtungen unterstreichen die relative Armut von Big Data im Gesundheitswesen und die Bedeutung der Arbeit an der Erreichung von Stichprobengrößen, wie sie in anderen Branchen erreicht wurden, sowie die Bedeutung einer konzertierten, internationalen Big-Data-Freigabe für Gesundheitsdaten.
Die jeweiligen Funktionen von Menschen und Algorithmen bei der Gesundheitsversorgung sind nicht die gleichen. Mithilfe von Algorithmen können Kliniker die verfügbaren Daten bestmöglich für die Praxis nutzen, insbesondere wenn die Daten eine komplexe Struktur aufweisen oder sowohl umfangreich als auch sehr granular sind.
ML-Algorithmen können Ärzte in den meisten Aspekten der klinischen Medizin ergänzen, aber nicht ersetzen, von der Anamnese und körperlichen Untersuchung bis hin zu Diagnose, therapeutischen Entscheidungen und der Durchführung von Verfahren. Kliniker und Forscher müssen daher einen kohärenten Rahmen schaffen, in dem Big Data eine neue Generation der Mensch-Maschine-Zusammenarbeit vorantreibt. Selbst die ausgefeiltesten ML-Anwendungen werden wahrscheinlich als diskrete Entscheidungsunterstützungsmodule existieren, um bestimmte Aspekte der Patientenversorgung zu unterstützen, anstatt mit ihren menschlichen Gegenstücken zu konkurrieren.
Menschliche Patienten möchten wahrscheinlich, dass menschliche Ärzte weiterhin medizinische Entscheidungen treffen, unabhängig davon, wie gut ein Algorithmus die Ergebnisse vorhersagen kann. ML sollte daher als integraler Bestandteil eines vollständigen Pflegesystems untersucht und umgesetzt werden.
Die klinische Integration von ML und Big Data dürfte die Medizin verbessern. ML-Forscher sollten die Grenzen ihrer Algorithmen und Modelle erkennen, um deren Überbeanspruchung und Missbrauch zu verhindern, die andernfalls Misstrauen säen und Patienten schaden könnten.
Christodoulou, E. et al. J. Clin. Epidemiol. 110, 12–22 (2019).
Artikel Google Scholar
Gravesteijn, BY et al. J. Clin. Epidemiol. 122, 95–107 (2020).
Artikel Google Scholar
Zou, J. et al. Natur 559, 324–326 (2018).
Artikel CAS Google Scholar
Topol, EJ Nat. Mit. 26, 1318–1320 (2020).
Artikel CAS Google Scholar
Vasey, B. et al. geboren Med. 28, 924–933 (2022).
Artikel CAS Google Scholar
DeGrave, AJ et al. Nat. Mach. Intel. 3, 610–619 (2021).
Artikel Google Scholar
Wynants, L. et al. Br. Med. J. 369, m1328 (2020).
Artikel Google Scholar
Abramoff, MD et al. npj Ziffer. Med. 1, 39 (2018).
Artikel Google Scholar
Shin, S. et al. ESC-Herzinsuffizienz. 8, 106–115 (2021).
Artikel Google Scholar
Cho, SM et al. Dürfen. J. Cardiol. 37, 1207–1214 (2021).
Artikel Google Scholar
Uddin, S. et al. BMC Med. Formlos. Bestimmt. Mak. 19, 281 (2019).
Artikel Google Scholar
Volovici, V. et al. J. Neurotrauma 36, 3183–3189 (2019).
Artikel Google Scholar
Shashikumar, SP et al. npj Ziffer. Med. 4, 134 (2021).
Artikel Google Scholar
Forschungsnetzwerk für den Krebsgenomatlas. et al. Nat. Genet. 45, 1113–1120 (2013).
Artikel Google Scholar
Amerikanische Psychiatrie-Vereinigung. Diagnostic and Statistical Manual of Mental Disorders, 5. Auflage (APA, 2013).
Futoma, J. et al. Lanzettenziffer. Gesundheit 2, e489–e492 (2020).
Artikel Google Scholar
Cat, D. et al. Weltneurochirurg. 161, 230–239.e236 (2022).
Artikel Google Scholar
Marek, S. et al. Natur 603, 654–660 (2022).
Artikel CAS Google Scholar
Rudin, C. Nat. Mach. Intel. 1, 206–215 (2019).
Artikel Google Scholar
Richens, JG et al. Nat. Gemeinsam. 11, 3923 (2020).
Artikel CAS Google Scholar
Andaur Navarro, CL et al. Br. Med. J. 375, n2281 (2021).
Google Scholar
Stulberg, JJ et al. JAMA Surg. 153, 586–587 (2018).
Artikel Google Scholar
Twinanda, AP et al. IEEE Trans. Med. Bildgebung 36, 86–97 (2017).
Artikel Google Scholar
Referenzen herunterladen
Wir danken M. van Bilsen für die Abbildung und F. Liu für ihren wertvollen Rat. VV möchte D. Volovici dafür danken, dass er die Welt der Wahrscheinlichkeitsrechnung, der Statistik und des maschinellen Lernens eröffnet hat.
Abteilung für Neurochirurgie, Erasmus MC University Medical Center, Rotterdam, Niederlande
Victor Volovici
Yong Loo Lin School of Medicine, National University of Singapore, Singapur, Singapur
Nicholas L. Syn & Joseph J. Zhao
Abteilung für Chirurgie, National University Hospital, National University Health System, Singapur, Singapur
Nicholas L. Syn
Cambridge Centre for AI in Medicine, Universität Cambridge, Cambridge, Großbritannien
Ari Herkules
Programm für Gesundheitsdienste und Systemforschung, Duke-NUS Medical School, Singapur, Singapur
Nan Liu
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
VV konzipierte die Idee, entwarf das erste Manuskript, konzipierte die Figur und überwachte die Arbeit; NS überarbeitete das Manuskript grundlegend und las alle Versionen des Manuskripts kritisch. AE, JJZ und NL nahmen wesentliche Änderungen vor und genehmigten das endgültige Manuskript.
Korrespondenz mit Victor Volovici.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Nachdrucke und Genehmigungen
Volovici, V., Syn, NL, Ercole, A. et al. Schritte zur Vermeidung von Überbeanspruchung und Missbrauch von maschinellem Lernen in der klinischen Forschung. Nat Med 28, 1996–1999 (2022). https://doi.org/10.1038/s41591-022-01961-6
Zitat herunterladen
Veröffentlicht: 12. September 2022
Ausgabedatum: Oktober 2022
DOI: https://doi.org/10.1038/s41591-022-01961-6
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt