본 논문은 사회적 환경에서 로봇의 수용도를 높이기 위해 표현력 있는 로봇 행동이 필수적이라는 점을 강조하며, 최근 발전된 학습 기반의 네발 로봇 보행 제어기술에도 불구하고 다양한 사용자와 상황에 따른 최적의 행동을 결정하는 것이 여전히 어려운 과제임을 지적합니다. 기존의 자연어 입력 기반 방법은 효율적이지만 해상도가 낮고, 사람의 선호도를 학습하는 방법은 해상도는 높지만 표본 효율이 낮다는 한계를 가지고 있습니다. 이에 본 논문에서는 사전 훈련된 거대 언어 모델(LLM)이 생성한 사전 정보와 선호도 학습의 정확성을 결합하는 새로운 방법인 언어 유도 선호도 학습(LGPL)을 제시합니다. LGPL은 LLM을 이용하여 초기 행동 샘플을 생성하고, 선호도 기반 피드백을 통해 사람의 기대에 부합하는 행동을 학습합니다. 핵심 아이디어는 LLM이 선호도 학습의 샘플링 과정을 안내하여 표본 효율을 크게 향상시키는 것입니다. 실험 결과, LGPL은 단 4회의 질의만으로 정확하고 표현력 있는 행동을 빠르게 학습하여 순수 언어 매개 모델 및 기존 선호도 학습 방법을 능가함을 보여줍니다.