Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs

Created by
  • Haebom

作者

Chang Li, Yaren Zhang, Haoran Lv, Qiong Cao, Chao Xue, Xiaodong He

概要

この論文は、大規模言語モデル(LLM)の効率的な暗黙の推論のためのフレームワークを提示します。従来の思考プロセス(CoT)プロンプト方式には、計算コストが高く、速度が遅いという欠点があります。そのために、階層強化学習フレームワーク内で潜在的な思考プロセスを時間的に拡張された抽象行動(オプション)としてモデル化し、変分マルコフオプション批評(VMOC)アルゴリズムを使用して、さまざまなオプションを潜在的な埋め込みとして学習します。連続MDP同型思想理論を拡張し,潜在空間での政策学習がもともと複雑な問題の最適解を保存することを証明し,監督微調整(SFT)データを活用して人間推論デモンストレーションを潜在オプション空間に蒸留するコールドスタート手順を提案する。複雑な論理推論ベンチマークと動きの課題での実験結果は、提案されたフレームワークの効果を示しています。

Takeaways、Limitations

Takeaways:
LLMの効率的な暗黙の推論のための新しいフレームワークの提示
計算コストと速度問題解決のための潜在空間ベースの推論方式の提案
変分マルコフオプション批評(VMOC)アルゴリズムを用いた効果的な潜在的思考過程の学習
連続MDP同型思想理論拡張による理論的基盤の構築
監督微調整(SFT)データ活用によるコールドスタート手順の提案
論理推論と制御課題における優れた性能検証
Limitations:
提案されたフレームワークの一般化性能に関するさらなる研究が必要
さまざまな種類の問題に対する適用性と拡張性の評価が必要
VMOCアルゴリズムの学習安定性と効率の改善が必要
潜在空間の解釈可能性と透明性の確保方策の研究が必要
👍