Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MLLM-CBench:A Comprehensive Benchmark for Continual Instruction Tuning of Multimodal LLMs with Chain-of-Thought Reasoning Analysis

Created by
  • Haebom

作者

Haiyun Guo, ZhiYan Hou, Yu Chen, Jinghan He, Yandu Sun, Yuzhe Zhou, Shujing Guo, Kuan Zhu, Jinqiao Wang

概要

本稿では、マルチモーダル大規模言語モデル(MLLM)の継続的な指示調整(CIT)のための包括的な評価ベンチマークであるMLLM-CTBenchを紹介します。 MLLM-CTBenchは、最終回答精度と細分化された思考過程(CoT)推論品質評価を組み合わせた多次元評価、4つの主要カテゴリにわたって8つの連続学習アルゴリズムをベンチマークし、強化学習と指導学習微調整パラダイムを体系的に比較する包括的なアルゴリズムと訓練パラダイムの評価、そして選定および構成された注意深くキュレーションされた作業という3つの主要な貢献をします。主な研究結果としては、強力な一般機能を持つモデルが持続的学習中の忘却に対するより大きな強靭性を示し、推論チェーンが最終回答よりもゆっくり低下して階層的忘却仮説を裏付け、持続的学習アルゴリズムの効果はモデル機能と作業順序の両方に大きく依存し、強化学習設定におけるKL-divergence制約を統合することで、提示します。 MLLM-CTBenchは、MLLMの継続的な指示を調整するための厳格な基準を確立し、アルゴリズムの設計と評価に関する実践的なガイダンスを提供します。

Takeaways、Limitations

Takeaways:
MLLMの継続的な指示を調整するための厳格で体系的なベンチマークを提供します。
多次元評価により、最終回答の精度と思考プロセスの質を同時に評価します。
様々な連続学習アルゴリズムと訓練パラダイムを比較分析し,最適戦略を提示した。
モデルの一般的な機能と継続的な学習アルゴリズムの効果との間の相関関係を解明します。
強化学習におけるKL-divergence制約の重要性を強調する。
Limitations:
ベンチマークに含まれるデータセットの種類と数は、今後さらに拡大する必要があります。
特定のアルゴリズムやトレーニングパラダイムに偏りがある可能性があります。
実際の応用環境における一般化性能のさらなる研究が必要である。
👍