Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LLMs for sensory-motor control: Combining in-context and iterative learning

Created by
  • Haebom

作者

J onata Tyska Carvalho, Stefano Nolfi

概要

本稿では、大規模言語モデル(LLM)が連続観測ベクトルを連続行動ベクトルに直接マッピングすることによって実装されたエージェントを制御する方法を提案します。 LLMは、エージェント、環境、目標に関するテキストの説明に基づいて制御戦略を作成し、パフォーマンスフィードバックと感覚運動データを使用して戦略を繰り返し改善する学習プロセスを経ます。 Gymnasiumライブラリの古典的な制御タスクとMuJoCoライブラリの逆振子タスクでこの方法を検証し、GPT-oss:120bおよびQwen2.5:72bなどの比較的小さなモデルでも効果的であることを示しました。この方法は、推論によって得られた象徴的な知識と、エージェントが環境と対話しながら収集されたサブシンボル感覚運動データを統合して、最適または最適に近い解決策をうまく見つけることができます。

Takeaways、Limitations

Takeaways:
LLMを用いた実装エージェント制御の新しい方法の提示
象徴的な知識とサブシンボル感覚運動データの統合による効率的な問題解決
比較的小さいLLMでも効果的な性能を発揮
さまざまな環境(Gymnasium、MuJoCo)での適用性の確認
Limitations:
提示された方法の一般化性能に関するさらなる研究が必要
より複雑で多様な環境での性能評価が必要
使用されるLLMのサイズ制限と他のLLMの適用性のレビューが必要
学習プロセスの効率性と安定性の改善が必要
👍