의료 영상 분야의 전통적인 객체 탐지 모델은 닫힌 집합 패러다임 내에서 작동하여 새로운 레이블의 객체를 탐지하는 데 한계가 있었습니다. 이러한 한계를 해결하기 위해 오픈-보캐블러리 객체 탐지(OVOD)가 제시되었지만, 의료 영상 분야에서는 데이터셋 부족과 텍스트-이미지 정렬의 약점으로 인해 충분히 연구되지 않았습니다. 본 논문에서는 의료 영상 분야를 위한 최초의 실시간 오픈 보캐블러리 탐지 모델인 MedROV를 제안합니다. 오픈 보캐블러리 학습을 위해 600K개의 탐지 샘플을 포함하는 대규모 데이터셋 Omnis를 구축하고, 여러 소스 데이터셋에서 누락된 주석을 처리하기 위한 가짜 레이블링 전략을 도입했습니다. 또한, 사전 훈련된 대형 파운데이션 모델로부터 지식을 통합하여 일반화를 향상시켰습니다. MedROV는 대조 학습과 크로스 모달 표현을 활용하여 기존 및 새로운 구조를 효과적으로 탐지합니다. 실험 결과는 MedROV가 의료 영상 탐지를 위한 이전 최고 성능의 파운데이션 모델보다 평균 40 mAP50 이상, 닫힌 집합 탐지기보다 3 mAP50 이상 향상된 성능을 보이면서 70 FPS로 실행되어 새로운 기준을 제시함을 보여줍니다.