본 논문은 강화 학습(RL) 에이전트 설계를 위한 텍스트 기반 지침을 활용한 자동 보상 설계 시스템을 제안합니다. 복잡한 환경에서 원하는 행동을 보상 함수로 매핑하는 어려움을 해결하기 위해, 대규모 언어 모델(LLM) 기반 보상 생성, 비전-언어 모델(VLM) 기반 선호도 평가, 그리고 인간 피드백을 결합하여 Gran Turismo 7 레이싱 게임에서 경쟁력 있는 RL 에이전트를 생성하는 방법을 제시합니다. 이 시스템은 GT Sophy와 유사한 수준의 성능을 달성하며, 새로운 행동 생성도 가능하여 실제 응용 분야에서 실용적인 자동 보상 설계를 위한 길을 열었습니다.