SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models
Created by
Haebom
저자
Chengyu Wang, Paria Rashidinejad, DiJia Su, Song Jiang, Sid Wang, Siyan Zhao, Cai Zhou, Shannon Zejiang Shen, Feiyu Chen, Tommi Jaakkola, Yuandong Tian, Bo Liu
개요
Diffusion 대규모 언어 모델(dLLM)은 여러 토큰을 병렬로 디코딩하는 능력으로 인해 자기 회귀 모델의 효율적인 대안으로 부상하고 있습니다. 그러나 dLLM을 강화 학습(RL)을 통해 인간 선호도 또는 특정 작업 보상에 맞추는 것은 어려운데, 이는 추적하기 어려운 로그 우도(log-likelihood) 때문에 표준 정책 경사 방법의 직접적인 적용을 방해하기 때문입니다. 기존 연구에서는 증거 하한(ELBO)과 같은 대리 변수를 사용하지만, 이러한 단방향 근사는 상당한 정책 경사 편향을 유발할 수 있습니다. 이러한 문제를 해결하기 위해 참 로그 우도의 상한과 하한을 모두 활용하는 Sandwiched Policy Gradient (SPG)를 제안합니다. 실험 결과 SPG가 ELBO 또는 1단계 추정에 기반한 기준선을 크게 능가하는 것으로 나타났습니다. 특히, SPG는 GSM8K에서 3.6%, MATH500에서 2.6%, Countdown에서 18.4%, Sudoku에서 27.0% 향상시켜 dLLM에 대한 최첨단 RL 방법보다 정확도를 향상시켰습니다.
시사점, 한계점
•
시사점:
◦
SPG는 dLLM을 인간 선호도에 맞추는 RL에서 새로운 접근 방식을 제시합니다.
◦
상한과 하한을 모두 활용하여 정책 경사 편향을 줄입니다.
◦
GSM8K, MATH500, Countdown, Sudoku와 같은 다양한 벤치마크에서 기존 방법보다 성능이 향상되었습니다.