OVOD-Agent: A Markov-Bandit Framework for Proactive Visual Reasoning and Self-Evolving Detection

Created by

Haebom

저자

Chujie Wang, Jianyu Lu, Zhiyuan Luo, Xi Chen, Chu He

💡 개요

본 논문은 고정된 범주 이름에 의존하는 기존 개방형 어휘 객체 탐지(OVOD)의 한계를 극복하기 위해, 텍스트 최적화를 시각적 추론 및 자체 발전 탐지로 확장하는 OVOD-Agent를 제안합니다. Chain-of-Thought (CoT) 패러다임에서 영감을 받은 시각적 CoT와 약한 마르코프 결정 과정(w-MDP)을 활용하여 에이전트의 상태, 기억, 상호작용 역학을 모델링합니다. 제한된 감독 하에서 탐색 신호를 생성하는 Bandit 모듈은 에이전트가 불확실한 영역에 집중하고 탐지 정책을 적응하도록 돕습니다.

🔑 시사점 및 한계

•

OVOD-Agent는 텍스트 공간의 잠재력을 탐색하여 기존 OVOD 방법론의 성능을 일관되게 향상시키고, 특히 희귀 범주 탐지에 효과적입니다.

•

시각적 CoT와 w-MDP를 결합한 프레임워크는 능동적인 시각적 추론 및 자체 발전 탐지라는 새로운 접근 방식을 제시합니다.

•

LLM 기반 관리가 비효율적인 경량 OVOD에 대한 효과적인 관리 전략을 제공합니다.

•

(한계점 또는 향후 과제) Bandit 모듈의 탐색 신호 생성과 Reward Model (RM) 최적화 간의 완전한 폐쇄 루프를 구축했지만, 실제 복잡한 시나리오에서의 확장성 및 실시간 적용 가능성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage