Open-Vocabulary Object Detection (OVOD)의 성능 향상을 위해 제안된 OVOD-Agent는 텍스트 표현 개선을 통해 시각적 추론과 자기 진화적 감지를 가능하게 합니다. Chain-of-Thought (CoT) 패러다임을 차용하여 해석 가능한 Visual-CoT를 구축하고, Weakly Markovian Decision Process (w-MDP)를 통해 시각적 컨텍스트 전환을 모델링합니다. Bandit 모듈은 탐색 신호를 생성하고, Markov 전환 행렬과 Bandit 궤적을 통합하여 자기 지도 학습 기반의 Reward Model (RM)을 최적화합니다. COCO 및 LVIS 데이터셋 실험 결과 희귀 범주에서 특히 향상된 성능을 보였습니다.