Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Intention-Conditioned Flow Occupancy Models

Created by
  • Haebom

作者

Chongyi Zheng, Seohong Park, Sergey Levine, Benjamin Eysenbach

概要

この論文では、強化学習(RL)の分野で事前学習された大規模モデルを活用する方法を紹介します。具体的には、時間依存性が重要なRL環境での将来の状態予測にフローマッチングを利用する確率的モデルであるIntention-conditioned flow occupancy models(InFOM)を提案します。 InFOMは、ユーザーの意図を特定する潜在変数を含むモデルの表現力を高め、一般化されたポリシーの改善を可能にします。 36のステータスベースと4つのイメージベースのベンチマーク作業により、InFOMは他の事前学習方法よりも優れたパフォーマンスを示しました。

Takeaways、Limitations

Takeaways:
RL分野の重要な課題であるサンプル効率と堅牢性の向上に貢献します。
大規模モデルを事前学習し、特定のタスクに適応して微調整する方法をRLに適用します。
フローマッチングを活用して、複雑な将来の状態分布をモデル化します。
ユーザーの意図を把握する潜在変数を使用してモデルの表現力を向上させます。
さまざまなベンチマーク環境で従来の方法と比較して高いパフォーマンスを示します。
Limitations:
論文自体に具体的なLimitations言及はありません。
👍