Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VDC-Agent: When Video Detailed Captioners Evolve Themselves via Agentic Self-Reflection

Created by
  • Haebom
Category
Empty

저자

Qiang Wang, Xinyuan Gao, SongLin Dong, Jizhou Han, Jiangyang Li, Yuhang He, Yihong Gong

개요

VDC-Agent는 사람의 주석이나 대형 교사 모델 없이 비디오 상세 캡셔닝을 위한 자체 진화 프레임워크입니다. 이 에이전트는 캡션 생성, 원칙 기반 점수 매기기(점수 및 텍스트 제안), 프롬프트 개선의 폐쇄 루프를 형성합니다. 캡션 품질이 저하되면 자체 반성 경로를 통해 이전 사고 과정을 활용하여 업데이트를 수정합니다. 레이블이 지정되지 않은 비디오에서 이 프로세스를 실행하면 (캡션, 점수) 쌍의 궤적이 생성됩니다. 궤적을 선호 튜플로 변환하고 JSON 구문 분석 오류가 있는 샘플을 필터링하여 18,886개의 자동 생성된 쌍을 포함하는 VDC-Agent-19K를 생성합니다. 그런 다음 기본 MLLM을 이 데이터세트에 대한 쉬운-어려운 커리큘럼 직접 선호 최적화를 사용하여 미세 조정합니다. Qwen2.5-VL-7B-Instruct를 기반으로 구축된 VDC-Agent-7B는 VDC 벤치마크에서 49.08%의 평균 정확도와 2.50 점수로 최첨단 성능을 달성하여 전문 비디오 캡셔너를 능가하고 기본 모델보다 +5.13%의 정확도와 +0.27 점수를 유사한 추론 비용으로 향상시켰습니다.

시사점, 한계점

시사점:
사람의 주석이나 대형 교사 모델 없이도 비디오 상세 캡셔닝에서 SOTA 성능 달성.
자동으로 생성된 데이터셋을 활용하여 모델을 훈련.
자체 반성 경로를 통한 캡션 품질 개선.
Qwen2.5-VL-7B-Instruct를 기반으로 한 모델의 우수한 성능.
한계점:
논문에서 직접적으로 언급된 한계점은 없음. (하지만, 자동 생성된 데이터의 품질, 특정 비디오 유형에 대한 성능 저하 가능성, 계산 비용 등은 잠재적인 한계점으로 고려될 수 있음.)
👍