Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Created by
  • Haebom
Category
Empty

저자

Zizhao Li, Zhengkang Xiang, Joseph West, Kourosh Khoshelham

개요

본 논문은 기존의 폐쇄 집합 가정 하에 작동하는 객체 탐지 방법의 한계를 극복하고자, 개방형 어휘 객체 탐지(OVD)에 초점을 맞추고 있습니다. OVD는 사전에 정의된 고정된 수의 객체만 탐지할 수 있는 기존 방법과 달리, 원칙적으로 무한한 어휘로 객체를 탐지할 수 있게 합니다. 하지만 기존 OVD는 정확한 프롬프트를 필요로 하고, 분포 외 객체(NOOD, FOOD)를 제대로 처리하지 못하는 한계가 있습니다. 이를 해결하기 위해, 본 논문에서는 미지의 객체를 식별하고 점진적으로 학습하는 프레임워크를 제안합니다. 특히, 미지의 객체(FOOD) 탐지를 위해 Open World Embedding Learning (OWEL)과 Pseudo Unknown Embedding 개념을 도입하여 미지 클래스의 위치를 추론하고, Multi-Scale Contrastive Anchor Learning (MSCAL)을 통해 잘못 분류된 미지 객체를 식별합니다. 제안된 방법은 표준 개방형 세계 객체 탐지 및 자율 주행 벤치마크에서 최첨단 성능을 달성하면서 개방형 어휘 객체 탐지 기능을 유지합니다.

시사점, 한계점

시사점:
개방형 어휘 객체 탐지(OVD)의 한계점인 분포 외 객체(NOOD, FOOD) 처리 문제를 효과적으로 해결하는 새로운 프레임워크 제시.
Open World Embedding Learning (OWEL)과 Multi-Scale Contrastive Anchor Learning (MSCAL)을 통해 미지의 객체를 효과적으로 식별하고 학습하는 새로운 방법 제시.
자율 주행 등 실세계 응용 분야에서의 OVD 성능 향상에 기여.
표준 개방형 세계 객체 탐지 및 자율 주행 벤치마크에서 최첨단 성능 달성.
한계점:
제안된 방법의 성능이 특정 데이터셋이나 환경에 의존할 가능성 존재.
OWEL과 MSCAL의 계산 비용이 높을 수 있음.
실제 자율 주행 환경에서의 일반화 성능에 대한 추가적인 검증 필요.
'oracle'에 대한 의존성 완전 제거 여부에 대한 추가적인 연구 필요.
👍