MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention
Created by
Haebom
저자
Yuxin Chen, Chen Tang, Jianglan Wei, Chenran Li, Ran Tian, Xiang Zhang, Wei Zhan, Peter Stone, Masayoshi Tomizuka
개요
본 논문은 인간 중심 환경에서 구현된 AI 에이전트를 배치하기 위해 로봇 행동을 인간의 선호도와 일치시키는 문제를 다룹니다. 인간 전문가가 정책 실행을 관찰하고 개입을 피드백으로 제공하는 상호 작용적 모방 학습이 유망한 해결책으로 제시됩니다. 기존 방법들은 학습을 용이하게 하기 위해 사전 정책을 효율적으로 활용하지 못하는 한계가 있습니다. 본 논문에서는 인간 개입으로부터 표본 효율적인 정렬을 위해 MEReQ (Maximum-Entropy Residual-Q Inverse Reinforcement Learning)를 제안합니다. MEReQ는 인간 행동 특성 전체를 추론하는 대신, 인간 전문가와 사전 정책의 기저 보상 함수 간의 차이를 포착하는 잔여 보상 함수를 추론합니다. 그런 다음 잔여 보상 함수를 사용하여 RQL(Residual Q-Learning)을 이용하여 정책을 인간의 선호도에 맞춥니다. 시뮬레이션 및 실제 작업에 대한 광범위한 평가는 MEReQ가 인간 개입으로부터 표본 효율적인 정책 정렬을 달성함을 보여줍니다.