Capturing Individual Human Preferences with Reward Features
Created by
Haebom
Category
Empty
저자
Andre Barreto, Vincent Dumoulin, Yiran Mao, Nicolas Perez-Nieves, Bobak Shahriari, Yann Dauphin, Doina Precup, Hugo Larochelle
개요
본 논문은 인간 피드백으로부터 강화 학습을 할 때, 사람 간의 차이를 구분하지 않는 보상 모델을 사용하는 기존 방식의 한계를 지적한다. 특히 대규모 언어 모델 훈련과 같이 의견 불일치 가능성이 높은 상황에서는 이러한 접근 방식이 적절하지 않다고 주장한다. 따라서 본 논문에서는 개인 또는 집단의 선호도에 맞춰 보상 모델을 특화하는 방법을 제안한다. 개별 선호도를 일반적인 보상 특징들의 선형 결합으로 나타낼 수 있다는 관찰에 기반하여, 일반적인 보상 특징들을 학습하고 이를 사용하여 특정 개인의 선호도에 빠르게 적응하는 보상 모델을 구축한다. 훈련 데이터에 해당 개인의 선호도가 반영되지 않은 경우에도 적용 가능함을 보인다. 대규모 언어 모델을 이용한 실험을 통해 제안된 모델을 비적응형 보상 모델 및 다른 적응형 모델(문맥 내 개인화 모델 포함)과 비교 분석하여, 훈련 데이터의 의견 불일치 정도에 따라 기존 모델보다 성능이 뛰어나거나, 더 간단한 구조와 안정적인 훈련으로 동등한 성능을 달성함을 보여준다.
시사점, 한계점
•
시사점:
◦
개인화된 보상 모델을 통해 대규모 언어 모델 훈련에서 발생할 수 있는 사람 간의 선호도 차이를 효과적으로 해결할 수 있는 가능성을 제시한다.
◦
일반적인 보상 특징을 학습하여 새로운 개인의 선호도에 대한 적응을 빠르게 수행할 수 있는 효율적인 방법을 제공한다.
◦
훈련 데이터의 의견 불일치 정도에 따라 유연하게 성능을 발휘하는 적응력 있는 모델을 제시한다.
•
한계점:
◦
제안된 모델의 성능이 훈련 데이터의 의견 불일치 정도에 따라 달라질 수 있다는 점은 추가적인 연구가 필요하다.