Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

Created by
  • Haebom

作者

Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Philip Torr, Xuanjing Huang

概要

BMMRは、大規模な多言語、多モーダル、多学問推論データセットで、大規模多モーダルモデル(LMM)の開発と評価のための110,000の大学レベルの質問を含みます。ユネスコで定義された300の科目を取り扱い、客観式、空白埋め、主観式など、さまざまな形式の質問や本、試験、クイズなど、さまざまなソースからのデータで構成されます。人間の介入ベースのスケーラブルなフレームワークを介してキュレーションおよびフィルタリングされ、各インスタンスには高品質の推論パスが接続されています。データセットは、LMMの知識と推論能力を総合的に評価するための20,458の高品質インスタンスで構成されたBMMR-Evalと、さらなる研究開発をサポートする88,991のインスタンスで構成されるBMMR-Trainに分けられます。正確で細かい推論経路評価のためのプロセスベースの多学文検証器(BMMR-Verifier)も提案します。 24モデルの実験結果は、最先端モデルでさえBMMR-Evalでかなりの改善の余地があることを示した。 BMMR-Verifierを用いた推論チェーン解析などの深層研究により、LMMが多学問的推論に現在直面している課題を明らかにしました。データセットは公開される予定です。

Takeaways、Limitations

Takeaways:
大規模多モーダルモデル(LMM)の多学的推論能力評価のための新しいベンチマークデータセットBMMRを提供
最先端LMMの性能限界と改善方向の提示
多学的推論におけるモデル偏向とオープンソースモデルと独占モデルとの間の性能差解析
BMMR-Trainを利用した fine-tuning の効果確認
LMMの多学的推論課題の詳細な理解
Limitations:
データセットの規模にもかかわらず、まだ最先端のモデルは多学的推論で完璧なパフォーマンスを示していません
推論モデルの特定の科目に対する偏向問題の持続
オープンソースモデルと排他モデルとの間の性能差の存在
👍