Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
개요
Chain-of-thought (CoT) 추론은 LVLM의 해석 가능성과 신뢰성을 향상시키는 데 중요합니다. 기존 훈련 알고리즘은 보상 모델에 의존하며, 새로운 추론 작업에 대해 일반화가 잘 안 될 수 있습니다. 본 논문은 LVLM의 추론을 사후 추론으로 재구성하고, 완화된 변분 추론을 기반으로 확장 가능한 훈련 알고리즘을 제안합니다. 다양성 추구 강화 학습 알고리즘을 활용하여, 다양한 고유사건 가능성 CoT를 장려하는 새로운 희소 보상 함수를 도입하여 결정적 샘플링 제한을 극복하고 보상 해킹을 방지합니다. 또한, 비용이 많이 드는 Best-of-N 및 빔 서치를 marginal likelihood로 대체하여 최적의 근거와 답변을 효율적으로 순위를 매기는 Bayesian inference-scaling 전략을 구현했습니다. 제안된 방법은 7개의 추론 벤치마크에서 LVLM의 성능을 향상시켰습니다.
시사점, 한계점
•
LVLM의 추론 능력 향상: 새로운 훈련 알고리즘을 통해 LVLM의 추론 능력을 효과적으로 개선했습니다.
•
일반화 성능 개선: 보상 모델에 대한 의존성을 줄이고, 새로운 추론 작업에 대한 일반화 성능을 향상시켰습니다.
•
해석 가능성 및 효율성 증가: Bayesian inference-scaling 전략을 통해 최적의 근거를 효율적으로 순위를 매기고, Best-of-N 및 빔 서치와 같은 비용이 많이 드는 방식을 대체하여 효율성을 높였습니다.
•
희소 보상 함수 활용: 다양성 있는 CoT 생성을 통해 보상 해킹을 방지하고, 모델의 견고성을 높였습니다.
•
제한점: 구체적인 실험 데이터, 구현 세부 사항, 그리고 다른 LVLM 아키텍처 및 작업에 대한 일반화 성능에 대한 추가 연구가 필요합니다.