Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MedROV: Towards Real-Time Open-Vocabulary Detection Across Diverse Medical Imaging Modalities

Created by
  • Haebom
Category
Empty

저자

Tooba Tehreem Sheikh, Jean Lahoud, Rao Muhammad Anwer, Fahad Shahbaz Khan, Salman Khan, Hisham Cholakkal

개요

의료 영상 분야의 전통적인 객체 탐지 모델은 닫힌 집합 패러다임 내에서 작동하여 새로운 레이블의 객체를 탐지하는 데 한계가 있었습니다. 이러한 한계를 해결하기 위해 오픈-보캐블러리 객체 탐지(OVOD)가 제시되었지만, 의료 영상 분야에서는 데이터셋 부족과 텍스트-이미지 정렬의 약점으로 인해 충분히 연구되지 않았습니다. 본 논문에서는 의료 영상 분야를 위한 최초의 실시간 오픈 보캐블러리 탐지 모델인 MedROV를 제안합니다. 오픈 보캐블러리 학습을 위해 600K개의 탐지 샘플을 포함하는 대규모 데이터셋 Omnis를 구축하고, 여러 소스 데이터셋에서 누락된 주석을 처리하기 위한 가짜 레이블링 전략을 도입했습니다. 또한, 사전 훈련된 대형 파운데이션 모델로부터 지식을 통합하여 일반화를 향상시켰습니다. MedROV는 대조 학습과 크로스 모달 표현을 활용하여 기존 및 새로운 구조를 효과적으로 탐지합니다. 실험 결과는 MedROV가 의료 영상 탐지를 위한 이전 최고 성능의 파운데이션 모델보다 평균 40 mAP50 이상, 닫힌 집합 탐지기보다 3 mAP50 이상 향상된 성능을 보이면서 70 FPS로 실행되어 새로운 기준을 제시함을 보여줍니다.

시사점, 한계점

의료 영상 분야에서 오픈 보캐블러리 객체 탐지 모델의 새로운 기준을 제시.
대규모 데이터셋 구축 및 가짜 레이블링 전략을 통해 데이터 부족 문제를 해결.
파운데이션 모델을 활용하여 일반화 성능 향상.
실시간 성능 (70 FPS) 달성.
연구의 한계점은 명시되지 않음 (논문 요약에 포함되지 않음).
👍