Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Latent Chain-of-Thought for Visual Reasoning

Created by
  • Haebom

저자

Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao

개요

Chain-of-thought (CoT) 추론은 LVLM의 해석 가능성과 신뢰성을 향상시키는 데 중요합니다. 기존 훈련 알고리즘은 보상 모델에 의존하며, 새로운 추론 작업에 대해 일반화가 잘 안 될 수 있습니다. 본 논문은 LVLM의 추론을 사후 추론으로 재구성하고, 완화된 변분 추론을 기반으로 확장 가능한 훈련 알고리즘을 제안합니다. 다양성 추구 강화 학습 알고리즘을 활용하여, 다양한 고유사건 가능성 CoT를 장려하는 새로운 희소 보상 함수를 도입하여 결정적 샘플링 제한을 극복하고 보상 해킹을 방지합니다. 또한, 비용이 많이 드는 Best-of-N 및 빔 서치를 marginal likelihood로 대체하여 최적의 근거와 답변을 효율적으로 순위를 매기는 Bayesian inference-scaling 전략을 구현했습니다. 제안된 방법은 7개의 추론 벤치마크에서 LVLM의 성능을 향상시켰습니다.

시사점, 한계점

LVLM의 추론 능력 향상: 새로운 훈련 알고리즘을 통해 LVLM의 추론 능력을 효과적으로 개선했습니다.
일반화 성능 개선: 보상 모델에 대한 의존성을 줄이고, 새로운 추론 작업에 대한 일반화 성능을 향상시켰습니다.
해석 가능성 및 효율성 증가: Bayesian inference-scaling 전략을 통해 최적의 근거를 효율적으로 순위를 매기고, Best-of-N 및 빔 서치와 같은 비용이 많이 드는 방식을 대체하여 효율성을 높였습니다.
희소 보상 함수 활용: 다양성 있는 CoT 생성을 통해 보상 해킹을 방지하고, 모델의 견고성을 높였습니다.
제한점: 구체적인 실험 데이터, 구현 세부 사항, 그리고 다른 LVLM 아키텍처 및 작업에 대한 일반화 성능에 대한 추가 연구가 필요합니다.
👍