Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs

Created by
  • Haebom

作者

Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit

概要

MMCRICBENCH-3Kは、クリケットスコア表に対する視覚的な質問応答(VQA)ベンチマークで、半定形表形式画像の複雑な数値およびクロス言語推論能力を評価するように設計されています。 ODI、T20、Test形式の1,463個の合成スコア表イメージと1,500個の英語のQAペアで構成されています。英語のスコア表を含むMMCRICBENCH-E-1.5Kと視覚的に類似したヒンディー語のスコア表を含むMMCRICBENCH-H-1.5Kの2つのサブセットに分けられます。すべての質問と回答は英語で維持され、制御されたクロススクリプト評価が可能です。この課題は、構造化数値データ、マルチイメージコンテキスト、および暗黙的なドメイン知識の推論を必要とします。実験の結果、GPT-4o や Qwen2.5VL などの最先端の LVLM でさえ、英語のサブセットで困難になり、ヒンディー語のサブセットではパフォーマンスがさらに低下することがわかります。これは、構造認識視覚テキストの理解、数値推論、およびクロス言語一般化の主な制限を示しています。データセットはHugging Face( https://huggingface.co/datasets/DIALab/MMCricBench)を介して公開されています。

Takeaways、Limitations

Takeaways:半整形表形式画像の数値およびクロス言語推論能力を評価する新しいベンチマークMMCRICBENCH-3Kを提示します。最先端のLVLMの構造認識 視覚的テキスト理解、数値推論、クロス言語一般化能力の限界を明らかにする。公的に利用可能なデータセットを通じて関連研究を促進します。
Limitations:データセットが合成データに基づいて作成されたこと。現在、英語とヒンディー語の2つの言語しかサポートしていません。クリケットスコア表と呼ばれる特定のドメインに限定され、一般化の可能性に関するさらなる研究が必要であること。
👍