本文提出了一项研究,旨在扩展过程奖励模型 (PRM),以提高视觉语言模型 (VLM) 的推理可靠性。为了解决现有 VL-PRM 的数据结构噪声和泛化问题,我们引入了一个混合数据合成框架,该框架结合了蒙特卡洛树搜索 (MCTS) 和强大的 VLM 的判断能力。此外,我们提出了以感知为中心的监督方法,可以明确地检测视觉层面的错误,并评估了各种测试时间扩展策略,以展示如何提高 VLM 的准确性。在五个多模态基准测试集上的实验获得了关键见解,包括使用结果奖励模型 (ORM) 进行测试时间扩展、小型 VL-PRM 的效率、感知层面监督的重要性以及测试时间扩展在高级数学推理数据集上的性能提升。