[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

On Pre-training of Multimodal Language Models Customized for Chart Understanding

Created by
  • Haebom

作者

Wan-Cyuan Fan, Yen-Chun Chen, Mengchen Liu, Lu Yuan, Leonid Sigal

概要

この論文は、マルチモーダル大規模言語モデル(MLLM)を特定のドメイン作業、特に科学チャートの理解にカスタマイズする最近の研究に基づいて、自然画像 - キャプション辞書学習データとデジタルチャート画像 - QAデータの違い、特にチャートから基本的な数値を抽出するモデルの能力のクリアランスを解決することに焦点を当てています。データの理解が大幅に向上します。2番目に、エンドツーエンドの微調整中に画像をランダムに変更すると、言語推論能力がチャート解析技術に移行します。 CHOPINLLMというカスタマイズされたMLLMを提示し、さまざまなチャートタイプと理解レベルにわたってMLLMの理解度を評価する新しいベンチマークを構築します。

Takeaways、Limitations

Takeaways:
チャートを理解するためのMLLMのパフォーマンスを向上させるための効果的な事前学習および微調整戦略の提示
さまざまな種類のチャート(注釈の有無を含む)を効果的に理解するCHOPINLLMモデルの開発
MLLMのチャート理解能力評価のための新しいベンチマークの提示
Limitations:
提示された方法論の一般化の可能性に関するさらなる研究が必要
より多様で複雑なチャートタイプのテストが必要
CHOPINLLMの性能限界と改善方向のさらなる分析が必要
👍