Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF
Created by
Haebom
저자
Syrine Belakaria, Joshua Kazdan, Charles Marx, Chris Cundy, Willie Neiswanger, Sanmi Koyejo, Barbara E. Engelhardt, Stefano Ermon
개요
본 논문은 대규모 언어 모델(LLM)의 훈련 및 정렬 파이프라인의 초석이 된 인간 피드백으로부터의 강화 학습(RLHF)에서, 선호도 학습 단계를 간소화하는 직접 선호도 최적화(DPO)와 같은 최근의 발전에도 불구하고 선호도 데이터 수집이 여전히 어렵고 비용이 많이 드는 과정임을 지적한다. 본 연구는 샤프 비율 기반의 위험 평가 전략을 사용하여 프롬프트와 선호도 쌍을 효율적으로 선택하는 능동 학습 접근 방식을 제안한다. 주석 전 선호도를 알 수 없다는 문제를 해결하기 위해, 모든 잠재적 선호도 주석의 기울기를 평가하여 모델 업데이트에 미치는 영향을 평가한다. DPO 손실 도출을 활용하여 각 튜플별로 이러한 샤프 비율을 계산하는 폐쇄형 표현식을 도출하여 접근 방식이 실행 가능하고 계산적으로 효율적임을 보장한다. 또한 사전 정보에 대한 다른 가정을 하는 두 가지 변형 방법을 소개한다. 실험 결과는 제안된 방법이 여러 언어 모델과 실제 데이터 세트에서 제한된 인간 선호도 데이터를 사용하여 선택된 완성과의 승률에서 기준선보다 최대 5%까지 성능이 우수함을 보여준다.
시사점, 한계점
•
시사점:
◦
샤프 비율 기반의 능동 학습 접근 방식을 통해 RLHF에서 선호도 데이터 수집의 효율성을 향상시킬 수 있음을 보여줌.
◦
제한된 인간 선호도 데이터로도 기존 방법보다 우수한 성능을 달성 가능함을 실험적으로 증명.
◦
DPO 손실 도출을 활용하여 계산적으로 효율적인 폐쇄형 표현식을 도출.
◦
사전 정보에 대한 다양한 가정을 고려한 여러 변형 방법 제시.
•
한계점:
◦
제안된 방법의 성능 향상이 데이터셋과 언어 모델에 따라 달라질 수 있음. (일반화 성능에 대한 추가 연구 필요)