Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Real-World Offline Reinforcement Learning from Vision Language Model フィードバック

Created by
  • Haebom

作者

Sreyas Venkataraman, Yufei Wang, Ziyu Wang, Navin Sriram Ravie, Zackory Erickson, David Held

概要

本論文は、事前に収集された最適でないデータセットからオンライン対話なしでポリシー学習を可能にするオフライン強化学習について説明します。特に、実世界のロボットや安全が重要なシナリオでは、オンラインデータ収集や専門家のデモ収集が遅く、高価で危険な場合に適しています。従来のオフライン強化学習のほとんどの研究は、データセットがすでに作業報酬としてラベル付けされていると仮定していますが、特に実際の世界のように地上の真実状態を把握するのが難しい場合は、かなりの努力が必要です。本稿では、RL-VLM-Fに基づいて、ビジョン言語モデルのアフィニティフィードバックとタスクのテキスト説明を使用して、オフラインデータセットの補償ラベルを自動的に生成する新しいシステムを提案します。この方法では、報酬ラベル付きのデータセットでオフライン強化学習を使用してポリシーを学習します。実際のロボットが服を着せる複雑な作業への適用性を示し、ビジョン言語モデルを使用して最適ではないオフラインデータセットで補償関数を最初に学習し、学習した補償を使用して暗黙のQ学習を介して効果的な服装ポリシーを開発します。剛体および変形可能な物体操作を含むシミュレーション作業でも優れた性能を示し、行動の複製や逆強化学習(inverse RL)などのベースラインよりもパフォーマンスがはるかに優れています。要約すると、ラベル付けされていない最適でないオフラインデータセットからの自動補償ラベリングとポリシー学習を可能にする新しいシステムを提案します。

Takeaways、Limitations

Takeaways:
ビジョン - 言語モデルを活用してオフラインデータセットの補償ラベルを自動的に生成する新しい方法を提示することで、オフライン強化学習の実世界適用可能性を高めました。
実際のロボット服の塗装作業とシミュレーション作業の両方において、従来の方法より優れた性能を示した。
複雑な作業に対するオフライン強化学習の効率性を証明しました。
Limitations:
ビジョン - 言語モデルのパフォーマンスに依存し、モデルのパフォーマンスの低下がシステム全体のパフォーマンスに影響を与える可能性があります。
使用されるビジョン言語モデルの一般化能力の追加検証が必要です。
特定のタスクに対する補償関数学習の一般化の可能性をさらに高めるための研究が必要です。
実世界のデータセットの多様性と複雑さによって、パフォーマンスが異なる場合があります。
👍