From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control
Created by
Haebom
作者
Yide Shentu, Philipp Wu, Aravind Rajeswaran, Pieter Abbeel
概要
本論文は、ロボット制御における高レベルの作業計画者と低レベルのポリシーとの間の通信のための明確に定義されたインタフェース層の必要性の問題を解決するために、大規模言語モデル(LLM)をインタフェース層として利用する方法の限界を克服する新しい方法であるLearnable Latent Codes as Bridges(LCB)を提案する。従来のLLMベースのアプローチは、自然言語で簡単に表現できないタスク(ダンスアクションなど)やドメインの移動やカタストロフィックforgettingの問題による遷移学習が困難であるという限界を持っています。 LCBは、学習可能な潜在コードをLLMと低レベルポリシー間のブリッジとして使用し、LLMが言語的制約なしに柔軟に目標を伝達し、遷移学習プロセス中に事前学習された単語トークンの埋め込みスペースを破壊することなく遷移学習を可能にします。 Language TableとCalvinのベンチマークにより、LCBが純粋な言語をインターフェース層として使用する従来の方法(GPT-4Vを含む)よりも、推論や多段階動作を必要とする作業で優れた性能を示すことを実験的に確認した。