每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

性能提升的幻象:对比解码为何无法减轻 MLLM 中的物体幻觉?

Created by
  • Haebom

作者

尹浩、司光宗、王子磊

Limitations对比解码策略分析

大纲

本文分析了对比解码策略的有效性,该策略广泛用于缓解多模态大规模语言模型 (MLLM) 中的对象幻觉。我们的结果表明,这些方法未能有效缓解幻觉问题,并且在 POPE 基准测试中观察到的性能提升主要归因于两个缺陷:对模型输出分布的粗略、单向调整,以及减少贪婪搜索的自适应有效性约束。为了进一步说明这些问题,我们提出了一系列伪增强方法,并将其性能与对比解码技术进行了比较。实验结果表明,对比解码的性能提升与缓解幻觉的初衷完全无关。

Takeaways, Limitations

Takeaways:
这表明关于对比解码策略具有缓解幻觉作用的普遍假设是错误的。
它为开发真正有效的解决方案来解决 MLLM 的幻觉问题提供了一个新的方向。
这表明在解释 POPE 基准结果时需要谨慎。
Limitations:
虽然它指出了对比解码策略的具体缺点,但并没有提供有效的替代解决方案。
可能需要进一步分析虚假改进方法的有效性。
仅仅依赖单一基准(POPE)可能会引发普遍性问题。
👍