Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards

Created by
  • Haebom

作者

Derek Li, Jiaming Zhou, Amirreza Kazemi, Qianyi Sun, Abbas Ghaddar, Mohammad Ali Alomrani, Liheng Ma, Yu Luo, Dong Li, Feng Wen, Jianye Hao, Mark Coates, Yingxue Zhang

概要

本論文は、多様な作業で優れた性能を発揮する大規模言語モデル(LLM)に基づいた汎用人工知能の発展に焦点を当てています。既存の地図微調整(SFT)法が一般化に困難を経験し、転移学習より暗記学習に重点を置く問題を解決するために、ルールベースの検証可能な補償とLLM-as-a-Judge評価による生成的好み信号を組み合わせた統合強化学習(RL)フレームワークであるOmni-Thinkerを提示します。 Omni-Thinkerは、さまざまな種類の作業にわたって一貫した最適化を可能にし、主観的な領域にRLベースのトレーニングを拡張します。構造化された作業からオープンな作業につながるカリキュラムベースの進歩は、パフォーマンスの向上と忘却の減少を示しています。 4つの分野にわたる実験結果は、カリキュラム学習が共同トレーニングより5.2%、モデルマージより9.1%のパフォーマンスを向上させることを示しており、汎用LLMのためのRLベースのポストトレーニング拡張における作業認識サンプリングとハイブリッド監督の重要性を強調しています。

Takeaways、Limitations

Takeaways:
Omni-Thinkerは、さまざまなタスクでLLMのパフォーマンスを向上させる効果的なRLフレームワークであることを示しています。
カリキュラムベースの学習戦略がRLベースのLLMトレーニングのパフォーマンスと一般化能力を向上させることを証明します。
タスク認識サンプリングとハイブリッド監督の重要性を強調します。
主観的な領域としてRLベースのトレーニングを拡張する新しい方法を提示します。
Limitations:
提示された実験は 4 つの領域に限定されており、さらに多様な作業やドメインの追加実験が必要です。
LLM-as-a-Judge評価の信頼性と客観性のさらなる分析が必要です。
カリキュラム設計の最適化と一般化の可能性に関するさらなる研究が必要です。
Omni-Thinkerの計算コストと効率の詳細な分析が必要です。
👍