本稿では、大規模言語モデル(LLM)が連続観測ベクトルを連続行動ベクトルに直接マッピングすることによって実装されたエージェントを制御する方法を提案します。 LLMは、エージェント、環境、目標に関するテキストの説明に基づいて制御戦略を作成し、パフォーマンスフィードバックと感覚運動データを使用して戦略を繰り返し改善する学習プロセスを経ます。 Gymnasiumライブラリの古典的な制御タスクとMuJoCoライブラリの逆振子タスクでこの方法を検証し、GPT-oss:120bおよびQwen2.5:72bなどの比較的小さなモデルでも効果的であることを示しました。この方法は、推論によって得られた象徴的な知識と、エージェントが環境と対話しながら収集されたサブシンボル感覚運動データを統合して、最適または最適に近い解決策をうまく見つけることができます。