Sign In

Automated Reward Design for Gran Turismo

Created by
  • Haebom
Category
Empty

저자

Michel Ma, Takuma Seno, Kaushik Subramanian, Peter R. Wurman, Peter Stone, Craig Sherstan

개요

본 논문은 강화 학습(RL) 에이전트 설계를 위한 텍스트 기반 지침을 활용한 자동 보상 설계 시스템을 제안합니다. 복잡한 환경에서 원하는 행동을 보상 함수로 매핑하는 어려움을 해결하기 위해, 대규모 언어 모델(LLM) 기반 보상 생성, 비전-언어 모델(VLM) 기반 선호도 평가, 그리고 인간 피드백을 결합하여 Gran Turismo 7 레이싱 게임에서 경쟁력 있는 RL 에이전트를 생성하는 방법을 제시합니다. 이 시스템은 GT Sophy와 유사한 수준의 성능을 달성하며, 새로운 행동 생성도 가능하여 실제 응용 분야에서 실용적인 자동 보상 설계를 위한 길을 열었습니다.

시사점, 한계점

시사점:
텍스트 기반 지침만으로 원하는 RL 에이전트 행동을 효과적으로 구현할 수 있음.
LLM, VLM 및 인간 피드백의 조합을 통해 자동 보상 설계 가능성을 보여줌.
챔피언 수준의 RL 에이전트와 경쟁 가능한 수준의 성능을 달성함.
새로운 행동 생성을 통해 RL 에이전트의 다양성을 증진시킴.
실제 응용 분야에 적용 가능한 자동 보상 설계 시스템의 가능성을 제시함.
한계점:
본 논문에서 구체적인 한계점 언급은 없음. (논문 초록 기반)
👍