Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

Created by
  • Haebom
Category
Empty

저자

Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu

개요

본 논문은 다양한 Chain-of-Thought (CoT) 디자인이 시각 언어 모델 (VLM)의 일반화 가능한 시각적 추론 능력 획득에 미치는 영향을 연구한다. 특히, "이미지로 생각하기"와 같은 긴 CoT 또는 시각적 CoT 데이터가 중간 추론을 지도하는 데 널리 사용되지만, 특정 CoT 디자인이 도움이 되는 이유와 실제로 일반화 가능한 추론을 지원하는 디자인이 무엇인지 불분명하다는 문제에 주목한다. 이를 체계적으로 평가하기 위해, 추론 규칙이 완전히 시각적이고, 난이도가 격자 크기에 따라 조정될 수 있으며, 모든 중간 단계가 자동으로 생성될 수 있는 제어된 미로 해결 벤치마크에 초점을 맞춘다. Qwen2.5-VL-7B를 사용하고, Language CoT, Grounding CoT (공간 좌표 궤적 포함), Visual CoT (이미지 조작 포함)의 세 가지 대표적인 CoT 형식을 비교한다.

시사점, 한계점

시사점:
시각적 CoT와 더 긴 CoT는 주로 수렴 속도를 높이지만 최종 성능 한계를 높이지는 않는다.
필수적인 Grounding 단계를 포함하는 간결한 CoT가 더 긴 추적보다 성능이 우수하다.
최소한의 Grounding 결과를 유지하는 CoT가 다양한 미로 크기에 걸쳐 가장 잘 일반화된다.
"짧은 것이 긴 것이다" 효과를 강조하며, 시각적 추론을 위한 일반화 가능한 SFT 데이터셋 구축에 실질적인 지침을 제공한다.
한계점:
구체적인 한계점은 논문 요약에 명시되지 않음.
👍