Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF

Created by
  • Haebom

저자

Syrine Belakaria, Joshua Kazdan, Charles Marx, Chris Cundy, Willie Neiswanger, Sanmi Koyejo, Barbara E. Engelhardt, Stefano Ermon

개요

본 논문은 대규모 언어 모델(LLM)의 훈련 및 정렬 파이프라인의 초석이 된 인간 피드백으로부터의 강화 학습(RLHF)에서, 선호도 학습 단계를 간소화하는 직접 선호도 최적화(DPO)와 같은 최근의 발전에도 불구하고 선호도 데이터 수집이 여전히 어렵고 비용이 많이 드는 과정임을 지적한다. 본 연구는 샤프 비율 기반의 위험 평가 전략을 사용하여 프롬프트와 선호도 쌍을 효율적으로 선택하는 능동 학습 접근 방식을 제안한다. 주석 전 선호도를 알 수 없다는 문제를 해결하기 위해, 모든 잠재적 선호도 주석의 기울기를 평가하여 모델 업데이트에 미치는 영향을 평가한다. DPO 손실 도출을 활용하여 각 튜플별로 이러한 샤프 비율을 계산하는 폐쇄형 표현식을 도출하여 접근 방식이 실행 가능하고 계산적으로 효율적임을 보장한다. 또한 사전 정보에 대한 다른 가정을 하는 두 가지 변형 방법을 소개한다. 실험 결과는 제안된 방법이 여러 언어 모델과 실제 데이터 세트에서 제한된 인간 선호도 데이터를 사용하여 선택된 완성과의 승률에서 기준선보다 최대 5%까지 성능이 우수함을 보여준다.

시사점, 한계점

시사점:
샤프 비율 기반의 능동 학습 접근 방식을 통해 RLHF에서 선호도 데이터 수집의 효율성을 향상시킬 수 있음을 보여줌.
제한된 인간 선호도 데이터로도 기존 방법보다 우수한 성능을 달성 가능함을 실험적으로 증명.
DPO 손실 도출을 활용하여 계산적으로 효율적인 폐쇄형 표현식을 도출.
사전 정보에 대한 다양한 가정을 고려한 여러 변형 방법 제시.
한계점:
제안된 방법의 성능 향상이 데이터셋과 언어 모델에 따라 달라질 수 있음. (일반화 성능에 대한 추가 연구 필요)
샤프 비율 계산의 복잡성 및 계산 비용에 대한 추가적인 분석 필요.
실제 환경에서의 확장성 및 적용 가능성에 대한 추가적인 검증 필요.
사전 정보에 대한 가정의 적절성에 대한 추가적인 연구 필요.
👍