每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

训练视觉语言过程奖励模型用于多模态推理中的测试时间缩放:关键见解和经验教训

Created by
  • Haebom

作者

Brandon Ong、Tej Deep Pala、Vernon Toh、William Chandra Tjhi、Souzanya Poria

大纲

本文提出了一项研究,旨在扩展过程奖励模型 (PRM),以提高视觉语言模型 (VLM) 的推理可靠性。为了解决现有 VL-PRM 的数据结构噪声和泛化问题,我们引入了一个混合数据合成框架,该框架结合了蒙特卡洛树搜索 (MCTS) 和强大的 VLM 的判断能力。此外,我们提出了以感知为中心的监督方法,可以明确地检测视觉层面的错误,并评估了各种测试时间扩展策略,以展示如何提高 VLM 的准确性。在五个多模态基准测试集上的实验获得了关键见解,包括使用结果奖励模型 (ORM) 进行测试时间扩展、小型 VL-PRM 的效率、感知层面监督的重要性以及测试时间扩展在高级数学推理数据集上的性能提升。

Takeaways, Limitations

Takeaways:
使用混合数据合成框架生成更准确的分步标签。
通过以感知为中心的监督提高基于视觉的错误检测能力。
通过测试时间缩放(TTS)提高VLM的准确性。
VL-PRM 支持强大的 VLM 主干网的潜在推理能力。
即使在未经训练的数据集上也能提高 TTS 性能。
Limitations:
基于 MCTS 的数据生成的 Limitations(尝试改进,但未完全消除)。
依赖于研究中使用的特定 VLM 主干。
需要进一步研究来确定不同任务的普遍性。
👍