본 논문은 대규모 주석 데이터가 부족한 미세 현미경 이미지 환경에서 컨텍스트 내 학습을 통해 최첨단 비전-언어 모델(VLM)이 소수 샷 객체 감지를 수행할 수 있는 방법을 연구한다. Micro-OD 벤치마크를 도입하여 252개의 이미지를 포함하며, 4개의 소스에서 11개의 세포 유형에 대한 바운딩 박스 주석을 제공한다. 8개의 VLM을 소수 샷 조건에서 평가하고, 추론 토큰 유무에 따른 변형을 비교한다. 또한 탐지 헤드와 VLM 기반 소수 샷 분류기를 결합한 하이브리드 FSOD 파이프라인을 구현하여 벤치마크에서 VLM의 성능을 향상시킨다.
시사점, 한계점
•
제로 샷 성능은 도메인 간의 격차로 인해 낮지만, 소수 샷 지원을 통해 감지 성능이 꾸준히 향상된다.
•
6 샷 이상에서는 성능 향상이 미미하다.
•
추론 토큰이 있는 모델은 엔드 투 엔드 localization에 더 효과적이며, 단순한 변형은 사전 localization된 crops 분류에 더 적합하다.
•
컨텍스트 내 적응은 현미경 이미지 분석에 실용적인 접근 방식임을 제시한다.
•
Micro-OD 벤치마크는 생물의학 이미징 분야의 개방형 어휘 감지를 발전시키는 데 활용될 수 있는 재현 가능한 테스트베드를 제공한다.