대규모 언어 모델(LLM)이 연속적인 관찰 벡터를 연속적인 행동 벡터에 직접 매핑하는 제어 정책을 생성하여 구체화된 에이전트를 제어하는 방법을 제안합니다. LLM은 에이전트, 환경 및 목표에 대한 텍스트 설명을 기반으로 제어 전략을 생성합니다. 이 전략은 성능 피드백과 평가 중에 수집된 감각-운동 데이터를 사용하여 LLM이 현재 전략을 개선하도록 반복적으로 프롬프트하는 학습 과정을 통해 반복적으로 개선됩니다. Gymnasium 라이브러리의 고전적인 제어 작업과 MuJoCo 라이브러리의 역진자 작업을 통해 방법론을 검증했습니다. GPT-oss:120b 및 Qwen2.5:72b와 같은 비교적 작은 모델에서도 효과적인 것으로 나타났습니다. 대부분의 경우, 추론을 통해 파생된 기호적 지식과 에이전트가 환경과 상호 작용하면서 수집된 비기호적 감각-운동 데이터를 통합하여 최적 또는 거의 최적의 솔루션을 성공적으로 식별합니다.