Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation

Created by
  • Haebom

作者

Weiming Wu, Jin Ye, Zi-kang Wang, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo

概要

マルチモーダル大規模言語モデル(MLLM)の幾何学的推論能力を向上させるために、大規模で高品質の推論データを取得することが重要であり、既存のデータ生成方法の限界を克服するための新しい神経記号フレームワークであるNeSyGeoを提案します。 NeSyGeoは、平面幾何学のすべての要素を包括的に表現するドメイン固有の言語を使用し、シンボリックシーケンスを合成して視覚的およびテキスト表現にマッピングし、逆方向検索と順方向検証によって推論パスを生成します。これに基づいて、100k個のサンプルを含むNeSyGeo CoTおよびNesyGeo-Captionデータセットを構築し、MLLMの幾何学的推論能力を評価するための新しいベンチマークであるNeSyGeo-Testをリリースしました。実験結果は,提案した方法が複数のMLLMsの性能を大幅に改善し,特に少数のサンプルと少数の訓練エポックによってかなりの性能向上を達成したことを示した。

Takeaways、Limitations

Takeaways:
新しい神経記号フレームワークNeSyGeoを介して幾何学的推論データ生成の多様性と数値的一般化問題を解決しました。
NeSyGeoフレームワークは、MLLMの幾何学的推論能力を向上させるのに有効であることを証明しました。
少量のデータとトレーニングでもMLLMのパフォーマンスを大幅に向上させることができます。
4Bモデルが8Bモデルよりも優れた性能を発揮します。
Limitations:
論文に具体的なLimitationsは記載されていない。
👍