Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning

Created by
  • Haebom

저자

Hongbo Jin, Ruyang Liu, Wenhao Zhang, Guibo Luo, Ge Li

개요

본 논문은 딥 신경망 모델과 사고 연쇄 기술의 발전으로 빠르게 발전하고 있는 시스템2 추론 분야에서, 특히 복잡한 비디오 추론에 대한 연구가 상대적으로 부족한 점을 지적합니다. 이에 따라, 다단계 복잡 추론 설계를 기반으로 하는 새로운 훈련 없는(training-free) 비디오 추론 패러다임인 CoT-Vid를 제안합니다. 기존의 비디오 LLMs과 달리 지각 능력에 크게 의존하지 않고, 명시적인 추론 메커니즘을 통해 놀라운 성능 향상을 달성했습니다. CoT-Vid는 동적 추론 경로 라우팅, 문제 분리 전략, 비디오 자기 일관성 검증의 세 가지 주요 구성 요소로 이루어져 있으며, 새로운 비디오 질문 분류 기준도 제시합니다. 다양한 벤치마크에서 뛰어난 결과를 보였으며, Egochema에서는 기본 모델보다 9.3%, VideoEspresso에서는 5.6% 향상된 성능을 기록하여 GPT-4V, GPT-4o, Gemini-1.5-flash와 같은 대규모 독점 모델과 경쟁하거나 능가하는 성능을 보였습니다. 코드는 곧 공개될 예정입니다.

시사점, 한계점

시사점:
훈련 없는(training-free) 방식으로 비디오 추론의 성능을 크게 향상시킬 수 있는 새로운 패러다임을 제시.
기존 비디오 LLM의 한계를 극복하고, 명시적인 추론 메커니즘을 통해 더 나은 성능을 달성.
새로운 비디오 질문 분류 기준 제시.
대규모 독점 모델과 경쟁 가능한 성능을 오픈소스로 제공할 예정.
한계점:
코드가 아직 공개되지 않음.
제시된 새로운 비디오 질문 분류 기준의 일반성 및 타당성에 대한 추가적인 검증 필요.
다양한 비디오 데이터셋에 대한 일반화 성능 평가가 추가적으로 필요.
👍