Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation

Created by
  • Haebom

作者

Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang

概要

CrossWordBenchは、テキストベースの手がかりと視覚的なグリッド構造の相互作用を通じて推論能力を評価する新しいベンチマークです。大規模な言語モデル(LLM)と大規模なビジョン - 言語モデル(LVLM)の両方のためのクロスワードパズルを活用して、テキストと画像の2つの形式でパズルを提供し、プリフィル率を調整して難易度を調整できます。 20を超えるモデルの評価の結果、推論能力のあるLLMは、非推論モデルよりも十字馬のパズルのプールのパフォーマンスがはるかに優れており、LVLMはパズルのプールのパフォーマンスとグリッド解析精度との間に強い相関関係があることを示しています。本研究は現在、LLMとLVLMの推論能力の限界を強調し、今後の評価のためのマルチモード制約課題を生成する効果的な方法を提示します。

Takeaways、Limitations

Takeaways:
テキストと画像間の相互作用を考慮したマルチモーダル推論能力評価の新しいベンチマークの提示
LLMの推論能力とLVLMのグリッド解析能力との相関関係の解明
さまざまな難易度と評価方法を提供する柔軟なベンチマークフレームワークの提示
現在のLLMとLVLMの推論能力の限界を明確に示す
Limitations:
クロスワードパズルという特定の課題に限定された評価
LVLMの性能劣化原因の詳細な分析不足
ベンチマークの一般化の可能性に関するさらなる研究が必要
👍