Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Created by
  • Haebom

作者

Daocheng Fu, Jianlong Chen, Renqiu Xia, Zijun Chen, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Hongyuan Zha, Junchi Yan, Botian Shi, Yu Qiao, Bo Zhang

概要

この論文は、数学的幾何学的問題解決(GPS)のための信頼できるベンチマークを構築するために、正式に検証された幾何学的問題を生成するデータエンジンであるTrustGeoGenを提供します。 TrustGeoGenは、マルチモードアライメント、公式検証、接続事故、GeoExploreアルゴリズムシリーズの4つのコアイノベーションを統合し、さまざまな解決策と自己反射トレース機能を備えたさまざまな問題のバリエーションを作成します。このエンジンを使用して、クロスモードの整合性が保証されるGeoTrust-200KデータセットとGeoTrust-testベンチマークを作成しました。実験の結果、最先端のモデルはGeoTrust-testで45.83%の精度のみを達成し、そのベンチマークの難しさを示しています。さらに、合成データで学習すると、GPS操作でモデルのパフォーマンスが大幅に向上し、ドメイン外(OOD)ベンチマークへの一般化が強化されます。コードとデータはhttps://github.com/Alpha-Innovator/TrustGeoGenで利用できます。

Takeaways、Limitations

Takeaways:
正式に検証されたジオメトリ問題データセットGeoTrust-200KおよびGeoTrust-testベンチマークを提供することで、ジオメトリ問題解決(GPS)分野の研究開発に貢献。
TrustGeoGenエンジンによって生成された合成データを活用した学習が、GPS操作のモデル性能向上とドメイン外一般化性能向上に効果的であることを実証。
既存のLLMのLimitationsである幻覚問題を解決し、信頼できるGPSデータセットを構築する可能性を提示します。
Limitations:
GeoTrust-200Kデータセットの規模が今後さらに拡大する必要性の存在。
TrustGeoGenエンジンの生成能力があらゆるタイプのジオメトリ問題を完全に扱うことができるかどうかについての追加の検証が必要です。
現在のベンチマークで最先端モデルの性能が50%未満で、まだ解決すべき課題が多いことを示唆。
👍