Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MLLM-CBench:A Comprehensive Benchmark for Continual Instruction Tuning of Multimodal LLMs with Chain-of-Thought Reasoning Analysis

Created by
  • Haebom

作者

Haiyun Guo, ZhiYan Hou, Yu Chen, Jinghan He, Yandu Sun, Yuzhe Zhou, Shujing Guo, Kuan Zhu, Jinqiao Wang

概要

この論文では、マルチモーダル大規模言語モデル(MLLM)の継続的な指示調整プロセスのためのベンチマークであるMLLM-CTBenchを紹介します。 MLLM-CTBenchは、6つの異なるドメインで7つの課題を厳選して構成されており、多次元評価指標(最終回答精度と事故連鎖(CoT)推論品質評価の組み合わせ)、持続的学習アルゴリズムの総合的評価(4つの主要カテゴリで8つのアルゴリズム評価)、強化微調整(RFT)と監督微細維持に基づいて)を提供します。実験の結果、MLLMの推論プロセスは、最終出力よりも継続的な学習中に忘却に強く、強力な基本モデルは忘却に強い抵抗力を示した。適切に規制されたRFTは、SFTよりも課題間のパフォーマンスを維持するためのより強力なアプローチで現れ、KL-divergence正規化の重要性を強調しています。

Takeaways、Limitations

Takeaways:
MLLMの継続的な指示調整のための体系的なベンチマークであるMLLM-CTBench提供。
多次元評価指標によりMLLMの継続的学習能力を細かく分析可能
様々な継続的学習アルゴリズムの総合評価とアルゴリズム設計と採用に関する実用的な洞察を提供
RFTとSFTの比較により、RFT、特にKL-divergence正規化が適用されたRFTが継続的学習においてより効果的であることを明らかにした。
MLLMの推論過程が最終出力よりも忘却に強いことを実験的に証明した。
Limitations:
MLLM-CTBenchの課題範囲が制限される可能性があります。
評価指標とアルゴリズム選択の主観性の存在可能性
実験環境と設定の一般化の可能性に関するさらなる研究の必要性
👍