Sign In

Foundation Models -- A Panacea for Artificial Intelligence in Pathology?

Created by
  • Haebom
Category
Empty

저자

Nita Mulliqi (Department of Medical Epidemiology,Biostatistics, Karolinska Institutet, Stockholm, Sweden), Anders Blilie (Department of Pathology, Stavanger University Hospital, Stavanger, Norway,Faculty of Health Sciences, University of Stavanger, Stavanger, Norway), Xiaoyi Ji (Department of Medical Epidemiology,Biostatistics, Karolinska Institutet, Stockholm, Sweden), Kelvin Szolnoky (Department of Medical Epidemiology,Biostatistics, Karolinska Institutet, Stockholm, Sweden), Henrik Olsson (Department of Medical Epidemiology,Biostatistics, Karolinska Institutet, Stockholm, Sweden), Sol Erika Boman (Department of Medical Epidemiology,Biostatistics, Karolinska Institutet, Stockholm, Sweden,Department of Molecular Medicine,Surgery, Karolinska Institutet, Stockholm, Sweden), Matteo Titus (Department of Medical Epidemiology,Biostatistics, Karolinska Institutet, Stockholm, Sweden), Geraldine Martinez Gonzalez (Department of Medical Epidemiology,Biostatistics, Karolinska Institutet, Stockholm, Sweden), Julia Anna Mielcarz (Department of Medical Epidemiology,Biostatistics, Karolinska Institutet, Stockholm, Sweden), Masi Valkonen (Institute of Biomedicine, University of Turku, Turku, Finland), Einar Gudlaugsson (Department of Pathology, Stavanger University Hospital, Stavanger, Norway), Svein R. Kjosavik (The General Practice,Care Coordination Research Group, Stavanger University Hospital, Norway,Department of Global Public Health,Primary Care, Faculty of Medicine, University of Bergen, Norway), Jose Asenjo (Department of Pathology, Synlab, Madrid, Spain), Marcello Gambacorta (Department of Pathology, Synlab, Brescia, Italy), Paolo Libretti (Department of Pathology, Synlab, Brescia, Italy), Marcin Braun (Department of Pathology, Chair of Oncology, Medical University of Lodz, Lodz, Poland), Radzislaw Kordek (Department of Pathology, Chair of Oncology, Medical University of Lodz, Lodz, Poland), Roman {\L}owicki (1st Department of Urology, Medical University of Lodz, Lodz, Poland), Kristina Hotakainen (Department of Clinical Chemistry,Hematology, University of Helsinki, Helsinki, Finland,Laboratory Services, Mehilainen Oy, Helsinki, Finland), Paivi Vare (Department of Pathology, Mehilainen Lansi-Pohja Hospital, Kemi, Finland), Bodil Ginnerup Pedersen (Department of Radiology, Aarhus University Hospital, Aarhus, Denmark,Department of Clinical Medicine, Aarhus University, Aarhus, Denmark), Karina Dalsgaard S{\o}rensen (Department of Clinical Medicine, Aarhus University, Aarhus, Denmark,Department of Molecular Medicine, Aarhus University Hospital, Aarhus, Denmark), Benedicte Parm Ulh{\o}i (Department of Pathology, Aarhus University Hospital, Aarhus, Denmark), Pekka Ruusuvuori (Institute of Biomedicine, University of Turku, Turku, Finland,InFLAMES Research Flagship, University of Turku, Turku, Finland,Faculty of Medicine,Health Technology, Tampere University, Tampere, Finland), Brett Delahunt (Malaghan Institute of Medical Research, Wellington, New Zealand,Department of Oncology,Pathology, Karolinska Institutet, Stockholm, Sweden), Hemamali Samaratunga (Aquesta Uropathology,University of Queensland, QLD, Brisbane, Australia), Toyonori Tsuzuki (Department of Surgical Pathology, School of Medicine, Aichi Medical University, Nagoya, Japan), Emilius A. M. Janssen (Department of Pathology, Stavanger University Hospital, Stavanger, Norway,Department of Chemistry, Bioscience,Environmental Engineering, University of Stavanger, Stavanger, Norway,Institute for Biomedicine,Glycomics, Griffith University, Queensland, Australia), Lars Egevad (Department of Oncology,Pathology, Karolinska Institutet, Stockholm, Sweden), Martin Eklund (Department of Medical Epidemiology,Biostatistics, Karolinska Institutet, Stockholm, Sweden), Kimmo Kartasalo (Department of Medical Epidemiology,Biostatistics, SciLifeLab, Karolinska Institutet, Stockholm, Sweden)

개요

본 논문은 전립선암 진단 및 글리슨 등급 분류를 위한 임상 수준의 AI 성능에 초점을 맞추어, 11개국 15개 사이트의 7,342명 환자의 10만 개 이상의 코어 바늘 생검을 사용하여 AI의 가장 큰 검증 연구 결과를 제시합니다. 두 개의 기초 모델(FM)과 완전한 엔드투엔드 작업 특화(TS) 모델을 다중 인스턴스 학습 프레임워크에서 비교하여, 데이터가 부족한 경우 FM이 유용하지만 충분한 레이블이 지정된 훈련 데이터가 있으면 TS 모델의 성능과 동등해지거나 심지어 능가할 수 있음을 발견했습니다. 특히, 광범위한 작업 특화 훈련은 임상적으로 중요한 등급 오류, 어려운 형태의 오진 및 다양한 WSI 스캐너 간의 변동성을 크게 줄였습니다. 또한, FM은 TS 모델보다 최대 35배 많은 에너지를 소비하여 지속 가능성에 대한 우려를 제기했습니다. 결론적으로, FM은 신속한 프로토타이핑과 연구에 분명한 이점을 제공하지만, 임상적으로 적용 가능한 의료 AI에 대한 보편적인 솔루션으로서의 역할은 불확실하며, 고위험 임상 적용의 경우 엄격한 검증과 작업 특화 훈련에 대한 고려가 중요하다고 주장합니다.

시사점, 한계점

시사점:
데이터가 부족한 상황에서 기초 모델(FM)의 유용성 확인
충분한 데이터가 있을 경우 작업 특화 모델(TS)의 우수한 성능 확인 (일부 경우 FM을 능가)
작업 특화 훈련을 통한 임상적 오류 감소 및 스캐너 간 변동성 감소 효과 입증
FM과 TS 모델의 장점을 통합한 효율적인 AI 병리학 솔루션 개발 필요성 제시
한계점:
FM의 높은 에너지 소비 문제 제기 (TS 모델 대비 최대 35배)
FM이 임상적으로 적용 가능한 의료 AI의 보편적인 솔루션이 될 수 있다는 주장에 대한 의문 제기
고위험 임상 적용을 위한 엄격한 검증 및 작업 특화 훈련의 중요성 강조
👍