Sign In

Semi-Supervised Preference Optimization with Limited Feedback

Created by
  • Haebom
Category
Empty

저자

Seonggyun Lee, Sungjun Lim, Seojin Park, Soeun Cheon, Kyungwoo Song

개요

본 논문은 언어 모델을 인간의 선호도에 맞추는 과정에서 발생하는 자원 소모 문제를 해결하기 위해, 적은 수의 쌍으로 된 선호도 레이블과 다량의 페어되지 않은 샘플을 동시에 활용하는 반지도 선호도 최적화(Semi-Supervised Preference Optimization, SSPO)를 제안한다. 핵심은, 승리 및 패배 응답을 고확률로 구분하는 최적의 보상 임계값의 존재를 증명하여, 페어되지 않은 데이터에 대한 원리적인 의사 레이블링을 가능하게 하는 것이다. SSPO는 이러한 의사 레이블을 활용하여 대규모 페어되지 않은 데이터로부터 잠재적 선호도를 효과적으로 추출함으로써, 인간과의 정렬을 유지하면서 데이터 획득 비용을 대폭 절감한다.

시사점, 한계점

시사점:
소량의 레이블 데이터와 대량의 비 레이블 데이터를 활용하여 데이터 효율성을 극대화함.
Llama3-8B-Instruct 모델을 사용하여 UltraFeedback 데이터셋의 1%만으로 10%를 사용한 기존 방식들을 능가하는 성능을 보임.
자원 소모를 줄이면서도 인간과의 정렬을 유지할 수 있는 가능성을 제시함.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음. (단, 연구 초기 단계이므로 추가적인 개선과 평가가 필요할 수 있음)
👍