Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Do Domain-Specific Foundation Models Justify Their Cost? A Systematic Evaluation Across Retinal Imaging Tasks

Created by
  • Haebom
Category
Empty

저자

David Isztl, Tahm Spitznagel, Gabor Mark Somfai, Rui Santos

개요

본 논문은 대규모 비전 기반 모델의 망막 질환 분류 적용에 대한 연구를 진행하며, 모델의 매개변수 요구 사항에 대한 체계적인 증거를 제시하고자 한다. 구체적으로, 대규모 도메인 특정 모델이 필수적인지, 아니면 소형 범용 아키텍처로 충분한지, 그리고 특화된 망막 사전 훈련이 계산 비용을 정당화하는지에 대한 두 가지 질문에 답하고자 한다. 이를 위해, 광학 단층 촬영(OCT) 및 컬러 펀더스 사진(CFP)을 포함한 4가지 망막 영상 분류 작업(OCT 8클래스, 당뇨병성 황반 부종(DME) 3클래스, 당뇨병성 망막증(DR) 5클래스, 녹내장(GL) 3클래스 감지)에 대해 다양한 모델을 벤치마킹했다.

시사점, 한계점

사전 훈련은 모든 작업에서 보편적인 이점을 제공하며, 작업 난이도에 따라 성능이 향상됨.
소형 아키텍처(27-29M 매개변수)가 대부분의 작업에서 우수한 성능을 보이며, SwinV2-tiny가 3개 데이터 세트에서 최고 성능을 달성함.
RETFound (303M) 모델은 까다로운 DR 등급 분류(정확도 71.15%)에서만 계산 비용을 정당화하며, ImageNet 사전 훈련은 다른 모든 작업(DME 정확도: 99.24%, OCT 정확도: 97.96%)에 충분함.
CFP 작업이 OCT보다 더 큰 사전 훈련 정확도 향상을 보임 (9.13-18.41% vs 5.18%).
대부분의 망막 분류 작업에 소형 범용 모델로도 최적에 가까운 성능을 낼 수 있으며, 특화된 파운데이션 모델은 극심한 클래스 불균형 하에서 미세한 구분이 필요한 경우에만 필요함.
👍