Sign In

Latent Chain-of-Thought for Visual Reasoning

Created by
  • Haebom
Category
Empty

저자

Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao

개요

본 논문은 대규모 시각-언어 모델(LVLM)의 해석 가능성과 신뢰성을 향상시키기 위해 중요한 연쇄적 사고(CoT) 추론을 개선하는 데 초점을 맞춘다. 기존 훈련 알고리즘의 한계를 극복하고, 사후 추론으로 CoT를 재구성하여, 다양한 고품질 잠재 CoT를 장려하는 희소 보상 함수를 도입한 확장 가능한 훈련 알고리즘을 제안한다. 또한, 효율적인 최적 추론 랭킹을 위해 Bayesian 추론 스케일링 전략을 구현한다. 제안된 방법은 7개의 추론 벤치마크에서 기존 LVLM보다 효과성, 일반화 및 해석 가능성을 향상시켰다.

시사점, 한계점

시사점:
LVLM의 CoT 추론 능력 향상
새로운 희소 보상 함수를 통한 다양하고 높은 우도 잠재 CoT 생성 유도
Bayesian 추론 스케일링 전략을 통한 효율적인 최적 추론 랭킹
7개의 추론 벤치마크에서 SOTA 달성
한계점:
논문에서 구체적인 한계점은 명시되지 않음. (논문 요약에 한계점 관련 내용 부재)
👍