본 논문은 강화학습(RL) 알고리즘 훈련에 효과적인 보상 함수 설계의 어려움을 다룹니다. 특히 정량화하기 어려운 주관적인 작업의 경우 전문가에게도 어려운 문제입니다. 본 연구는 대규모 언어 모델(LLM)이 자연어 작업 설명으로부터 보상을 생성하고, 인간 행동에 대한 광범위한 지시 조정 및 상식적 이해를 활용할 수 있다는 가설을 세웁니다. 자율 주행, 인간형 로봇 보행, 숙련된 조작 등 세 가지 어려운 설정에서, "좋은" 행동에 대한 개념이 암묵적이고 정량화하기 어려운 점에 주목하여, 인간 피드백을 활용하여 보상 함수를 생성하고 개선하는 진화적 프레임워크인 REvolve를 제시합니다. REvolve는 인간의 암묵적 지식을 (심층) RL 에이전트 훈련을 위한 명시적 보상 함수로 효과적으로 변환합니다. 실험 결과, REvolve로 설계된 보상 함수로 훈련된 에이전트가 기존 최고 성능의 기준 모델보다 우수한 성능을 보임을 보여줍니다.