Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ChartM$^3$: Benchmarking Chart Editing with Multimodal Instructions

Created by
  • Haebom

作者

Donglu Yang, Liang Zhang, Zihao Yue, Liangyu Chen, Yichen Xu, Wenxuan Wang, Qin Jin

概要

本論文は,自然言語と視覚的インジケータを組み合わせたマルチモーダルチャート編集パラダイムを提示した。既存の自然言語ベースのチャート編集方法のあいまいさの問題を解決するために、ユーザーの意図を自然言語と変更する要素を明示的に強調する視覚的インジケータとして表現する方法を提案します。これをサポートするために、多層的な複雑さと多面的な評価を備えた新しいマルチモーダルチャート編集ベンチマーク、Chart$\text{M}^3$を提示します。 Chart$\text{M}^3$ は、4 つのレベルの編集難易度を持つ 1,000 個のサンプルを含み、各サンプルは (チャート、コード、マルチモーダル指示) の 3 つの要素で構成されます。視覚的外観とコード精度の両方を評価する指標を提供することで、チャート編集モデルを包括的に評価します。この論文は、現在のマルチモーダル大規模言語モデル(MLLM)の制限、特にビジュアルインジケータの解釈と適用能力の欠如をChart$\text{M}^3$で示し、これを解決するために24,000のマルチモーダルチャート編集サンプルで構成される大規模な学習データセットChart$\text{M}^3$-Trainを構築します。 MLLMをこのデータセットに微調整すると、パフォーマンスが大幅に向上し、マルチモーダルマップ学習の重要性が示されます。データセット、コード、および評価ツールはGitHubで公開されています。

Takeaways、Limitations

Takeaways:
マルチモーダル入力を活用したチャート編集の新しいパラダイム提示
多層的な複雑さと多面的な評価を考慮した新しいベンチマーク Chart$\text{M}^3$ 提供
既存MLLMの視覚的指標の解釈と適用能力の限界を明らかにする
大規模マルチモーダル学習データセットChart$\text{M}^3$-TrainによるMLLMパフォーマンスの向上の可能性の提示
チャート編集システム開発におけるマルチモーダルマップ学習の重要性を強調
Limitations:
Chart$\text{M}^3$ ベンチマークのサンプル数(1,000個)が比較的少ない場合があります。
さまざまな種類のチャートと編集作業の一般化パフォーマンスに関するさらなる研究が必要です。
現在、MLLMの限界を克服するための追加の研究が必要です。 (例:より洗練された視覚的理解モデルの開発)
👍