Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data

Created by
  • Haebom

作者

Lingkai Kong, Haichuan Wang, Tonghan Wang, Guojun Xiong, Milind Tambe

概要

本稿では、ソース環境の事前に収集されたオフラインデータを活用して強化学習(RL)のサンプル効率を向上させる方法を提案します。ソース環境とターゲット環境との間の遷移ダイナミクスの違いにより、既存の方法が困難になる問題を解決するために、CompFlowという新しい方法を紹介します。 CompFlowは、フローマッチングと最適輸送との理論的関連性に基づいて、ターゲットダイナミクスをソースドメインフローの出力分布に基づく条件付きフローとしてモデル化します。これにより、ターゲットダイナミクス学習の一般化性能を向上させ、ソースとターゲットトランジションとの間のワッサーシュタイン距離を用いてダイナミクスの差を原則的に推定する。また、ダイナミクスの差が大きい領域で探索を優先する楽観的なアクティブデータ収集戦略を導入し、最適政策とのパフォーマンスの差を減らすことを理論的に証明する。実験の結果、CompFlowは、ダイナミクスが移動した複数のRLベンチマークで既存の最高のパフォーマンス方法を上回るパフォーマンスを示しています。

Takeaways、Limitations

Takeaways:
ソースとターゲット環境の遷移ダイナミクスの差が大きい場合でも、オフラインデータを効果的に活用してRLのサンプル効率を向上させる新しい方法を提示します。
Wasserstein距離を用いたダイナミクス差の推定は、KLdivergenceやmutual informationに比べてdisjoint supportの問題を解決するのに有効である。
楽観的なアクティブデータ収集戦略が最適政策とのパフォーマンスの差を低減できることを理論的に証明した。
複数のRLベンチマークで従来の方法より優れた性能を実験的に検証。
Limitations:
提案された方法の計算コストと複雑さの分析が不足している。
さまざまな環境や課題に対する一般化性能の追加実験が必要です。
Wasserstein距離計算の計算コストが高くなる可能性があります。
実際の複雑な環境での適用性に関するさらなる研究が必要である。
👍