Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

REvolve: Reward Evolution with Large Language Models using Human Feedback

Created by
  • Haebom

저자

Rishi Hazra, Alkis Sygkounas, Andreas Persson, Amy Loutfi, Pedro Zuidberg Dos Martires

개요

본 논문은 강화학습(RL) 알고리즘 훈련에 효과적인 보상 함수 설계의 어려움을 다룹니다. 특히 정량화하기 어려운 주관적인 작업의 경우 전문가에게도 어려운 문제입니다. 본 연구는 대규모 언어 모델(LLM)이 자연어 작업 설명으로부터 보상을 생성하고, 인간 행동에 대한 광범위한 지시 조정 및 상식적 이해를 활용할 수 있다는 가설을 세웁니다. 자율 주행, 인간형 로봇 보행, 숙련된 조작 등 세 가지 어려운 설정에서, "좋은" 행동에 대한 개념이 암묵적이고 정량화하기 어려운 점에 주목하여, 인간 피드백을 활용하여 보상 함수를 생성하고 개선하는 진화적 프레임워크인 REvolve를 제시합니다. REvolve는 인간의 암묵적 지식을 (심층) RL 에이전트 훈련을 위한 명시적 보상 함수로 효과적으로 변환합니다. 실험 결과, REvolve로 설계된 보상 함수로 훈련된 에이전트가 기존 최고 성능의 기준 모델보다 우수한 성능을 보임을 보여줍니다.

시사점, 한계점

시사점:
LLM을 활용하여 인간의 암묵적 지식을 강화학습 보상 함수 설계에 활용하는 새로운 접근법을 제시합니다.
인간 피드백을 통해 보상 함수를 진화적으로 개선하는 REvolve 프레임워크의 효과성을 실험적으로 검증합니다.
자율 주행, 인간형 로봇 보행, 숙련된 조작 등 다양한 복잡한 작업에서 우수한 성능을 달성합니다.
한계점:
인간 피드백에 대한 의존도가 높아, 피드백 제공의 비용과 시간이 상당할 수 있습니다.
LLM의 성능에 따라 보상 함수의 질이 영향을 받을 수 있습니다. LLM의 한계가 REvolve의 성능에 제약을 줄 수 있습니다.
제시된 세 가지 작업 외 다른 작업에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.
👍