Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining

Created by
  • Haebom

作者

Chenxi Liu, Tianyi Xiong, Yanshuo Chen, Ruibo Chen, Yihan Wu, Junfeng Guo, Tianyi Zhou, Heng Huang

概要

この論文では、大規模マルチモーダルモデル(LMM)のモダリティ不均衡問題を解決するための新しい好み学習フレームワークであるモダリティバランシング設定最適化(MBPO)を提案します。 MBPO は adversarial perturbation によって生成された hard negatives を使用してより効果的なオフライン選好データセットを構築し、close-ended task を活用して verified rewards でオンラインレスポンスを生成します。さらに、グループリレーショナルポリシー最適化(GRPO)を活用して、オフライン - オンラインハイブリッドデータを介してモデルを学習します。実験の結果、MBPOはLMMの性能を改善し、ハルシル化を効果的に低減することが示された。

Takeaways、Limitations

Takeaways:
LMMのモダリティ不均衡問題解決に寄与
Adversarial perturbationを活用したhard negatives生成によるオフライン選好データセットの効果増大
オンラインデータ生成とGRPOを活用した学習によるモデルの適応性の向上
Vision-language taskにおけるLMM性能の向上とハルシニングの低減効果の実証
Limitations:
LLMバックボーンの内部バイアスを緩和する方法のさらなる研究が必要です。
すべてのタイプの LMM タスクの一般化パフォーマンス評価が必要です。
MBPOのスケーラビリティと計算効率に関するさらなる研究が必要
👍