Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
Created by
Haebom
Category
Empty
저자
Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu
개요
본 논문은 인간 피드백 강화 학습(RLHF)을 게임 이론적 관점에서 접근하여, 인간 선호도의 복잡성을 더 잘 반영하는 새로운 온라인 알고리즘인 반복적 내쉬 정책 최적화(INPO)를 제안합니다. 기존의 보상 기반 RLHF 방식과 달리, INPO는 개별 응답에 대한 예상 승률 추정을 생략하여 계산 비용과 어노테이션 비용을 절감합니다. 대신 선호도 데이터셋을 직접 최소화하는 새로운 손실 목적 함수를 도입합니다. LLaMA-3-8B 기반 SFT 모델을 사용한 실험 결과, AlpacaEval 2.0에서 42.6%, Arena-Hard에서 37.8%의 승률을 달성하여 기존 최첨단 온라인 RLHF 알고리즘보다 상당한 성능 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
기존 RLHF의 Bradley-Terry 모델 가정의 한계를 극복하고 인간 선호도의 복잡성을 더 잘 반영하는 새로운 접근법 제시.
◦
계산 비용과 어노테이션 비용을 절감하는 효율적인 온라인 알고리즘 INPO 개발.
◦
다양한 벤치마크에서 기존 최첨단 알고리즘을 능가하는 성능을 입증.
•
한계점:
◦
INPO 알고리즘의 이론적 분석이 추가적으로 필요할 수 있음.
◦
실험 결과는 특정 LLM과 벤치마크에 국한되어, 일반화 가능성에 대한 추가 연구가 필요함.
◦
게임 이론적 프레임워크 기반의 알고리즘이므로, 인간 선호도의 복잡성을 완벽히 포착하지 못할 가능성 존재.