Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

Created by
  • Haebom
Category
Empty

저자

David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi

개요

본 논문은 시각 중심의 추론 데이터셋 구축에 대한 연구로, 100만 개 이상의 고품질 합성 시각 중심 질문으로 구성된 새로운 추론 데이터 생성 프레임워크를 제시한다. 이 데이터셋은 오프라인 및 온라인 강화 학습을 지원하는 선호 데이터와 지침 프롬프트도 포함한다. VLMs(Visual Language Models)과 추론 LLMs(Language Models)을 활용한 2단계 과정을 통해 추론 궤적을 합성하여, 최첨단 추론 모델에서 발견되는 풍부하고 다양한 인지 행동을 포착한다. Qwen2.5-VL-7B를 해당 데이터로 미세 조정하면 모든 공개 데이터 기반 벤치마크에서 우수한 성능을 보이며, V* Bench, CV-Bench 및 MMStar-V에서 MiMo-VL-7B-RL과 같은 강력한 비공개 데이터 모델보다 뛰어난 성능을 보인다. 또한 텍스트 기반 추론(MMLU-Pro) 및 오디오 추론(MMAU)에도 긍정적인 영향을 미치며, 단일 증거 구체화된 QA 벤치마크(NiEH)에서도 상당한 개선을 보인다. 본 논문은 또한 VLM 사후 훈련 파이프라인 전체를 분석하여, 고품질 데이터에 대한 SFT(Supervised Fine-tuning)가 효과적인 온라인 RL에 필수적이며, 단계별 오프라인 RL이 온라인 RL의 성능을 일치시키면서 컴퓨팅 요구 사항을 줄이며, 고품질 데이터에 대한 신중한 SFT가 도메인 외부, 교차 모달리티 전송을 상당히 향상시킬 수 있음을 강조한다.

시사점, 한계점

시사점:
대규모 합성 데이터셋을 통해 시각 중심 추론 모델의 성능을 크게 향상시킬 수 있다.
고품질 데이터는 텍스트, 오디오 및 구체화된 QA와 같은 다양한 추론 작업으로의 전송 능력을 향상시킨다.
비선형 추론 궤적을 포함한 고품질 데이터에 대한 SFT는 효과적인 온라인 RL에 중요하다.
단계별 오프라인 RL은 온라인 RL과 유사한 성능을 제공하면서 컴퓨팅 비용을 절감한다.
신중한 SFT는 도메인 외부 및 교차 모달리티 전송을 향상시킨다.
한계점:
비공개 데이터 및 데이터 합성 레시피에 의존하는 모델과의 비교가 제한적일 수 있다.
데이터셋 생성 및 모델 훈련에 필요한 컴퓨팅 자원이 클 수 있다.
합성 데이터의 현실 세계 적용 가능성에 대한 추가 연구가 필요하다.
VLM의 사후 훈련 파이프라인 분석 결과가 특정 모델 아키텍처에 종속될 수 있다.
👍