Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration
Created by
Haebom
Category
Empty
저자
Viraj Mehta, Syrine Belakaria, Vikramjeet Das, Ojash Neopane, Yijia Dai, Ilija Bogunovic, Barbara Engelhardt, Stefano Ermon, Jeff Schneider, Willie Neiswanger
개요
본 논문은 보상 함수의 평가가 불가능한 머신러닝 분야에서 중요한 역할을 하는 선호도 기반 피드백을 다룹니다. 특히, 인간 피드백으로부터의 강화 학습(RLHF) 및 직접 선호도 최적화(DPO)를 포함한 대규모 언어 모델의 선호도 정렬에서 주목할 만한 최근 사례가 등장하고 있습니다. 많은 선호도 정렬 응용 프로그램에서 인간 피드백을 얻는 비용이 상당할 수 있다는 점을 고려하여, 본 논문은 효율적으로 좋은 정책을 식별하기 위해 인간 피드백을 얻을 맥락을 선택할 수 있다는 점을 이용하고, 이 설정을 능동적 상황적 듀얼링 밴딧 문제로 공식화합니다. 효율적으로 데이터를 선택하는 능동적 탐색 알고리즘을 제안하고, 다항식 최악의 경우 후회 경계를 갖는다는 이론적 증명을 제공합니다. 대규모 언어 모델의 선호도 정렬에 대한 실용적인 사용을 위해 설정과 방법론을 확장하고, 온라인 및 오프라인 접근 방식이라는 두 가지 확장을 제공합니다. 제안된 방법은 여러 언어 모델과 두 개의 새로운 데이터 세트를 포함한 네 개의 실제 데이터 세트에서 제한된 인간 선호도 샘플을 사용하여 기준선을 능가합니다.
시사점, 한계점
•
시사점:
◦
능동적 학습을 통해 인간 피드백의 효율적인 수집 및 활용 방안 제시.
◦
대규모 언어 모델의 선호도 정렬 문제에 대한 효과적인 알고리즘 및 이론적 분석 제공.
◦
실제 데이터셋을 통해 제안된 방법의 우수성 검증.
◦
온라인 및 오프라인 두 가지 접근 방식 제시.
◦
새로운 데이터셋 공개를 통한 학계 기여.
•
한계점:
◦
제안된 알고리즘의 다항식 최악의 경우 후회 경계는 실제 성능을 완벽히 반영하지 못할 수 있음.