每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

AutoBench-V:大型视觉语言模型可以进行自我基准测试吗?

Created by
  • Haebom

作者

包涵、黄悦、王彦波、叶佳一、王祥琪、陈秀英、赵越、周天一、Mohamed Elhoseiny、张祥亮

大纲

本文介绍了 AutoBench-V,一个用于大规模视觉语言模型 (LVLM) 的自动化评估框架。为了克服现有手动评估方法的局限性,我们利用文本图像模型生成相关的图像样本,并通过在 LVLM 上执行视觉问答 (VQA) 任务来自动评估 LVLM 的性能。我们针对九种流行的 LVLM,通过五项评估标准进行了广泛的评估,证明了该框架的有效性和可靠性。

Takeaways, Limitations

Takeaways:
它可以实现 LVLM 的自动评估,克服现有手动评估方法的低效率和局限性。
我们提供按需评估体系,您可以根据需要灵活调整评估标准。
我们结合文本到图像模型和 LVLM 来实现高效且有效的评估过程。
Limitations:
评估结果的准确性可能会受到文本转图像模型性能的影响。
评估中使用的 VQA 任务的类型和数量会影响评估的全面性。
需要进一步验证以确定 AutoBench-V 生成的评估指标是否与人类主观评估一致。
👍