Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

WorldGym: World Model as An Environment for Policy Evaluation

Created by
  • Haebom

作者

Julian Quevedo, Ansh Kumar Sharma, Yixiang Sun, Varad Suryavanshi, Percy Liang, Sherry Yang

概要

ロボット制御方針を評価することの難しさを解決するために、著者は実際の環境の代理人として機能する自動回帰、行動条件ビデオ生成モデルであるWorldGymを提案します。 WorldGymはモンテカルロロールアウトを通じてポリシーを評価し、ビジョン - 言語モデルが報酬を提供します。実際のロボットの初期フレームのみを使用して、WorldGym で VLA ベースの実際のロボット ポリシー セットを評価し、WorldGym 内のポリシーの成功率が実際の成功率と高い相関関係を示しています。また、WorldGymがさまざまなポリシーバージョン、サイズ、およびトレーニングチェックポイントで相対的なポリシーランキングを維持できることを示しています。 WorldGymは単一の開始フレームしか必要としないため、新しい作業や環境でロボットポリシーの一般化能力を効率的に評価できます。

Takeaways、Limitations

Takeaways:
WorldGymは、実際のロボットポリシーの安全で再現可能な評価のための実用的な開始点を提供します。
WorldGymは、ポリシーの一般化能力を評価するのに効率的です。
WorldGymの私の政策成功率は、実際の成功率と高い相関関係を示しています。
WorldGymは、さまざまなポリシーバージョンで相対的なポリシーランクを維持できます。
Limitations:
最新のVLAベースのロボットポリシーは、依然としてオブジェクトの外観を区別するのに苦労しています。
オブジェクトの敵対的な外観によって妨げられる可能性があります。
非常に現実的なオブジェクト相互作用の生成は依然として困難である。
👍