Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

Created by
  • Haebom

저자

Chengyu Wang, Paria Rashidinejad, DiJia Su, Song Jiang, Sid Wang, Siyan Zhao, Cai Zhou, Shannon Zejiang Shen, Feiyu Chen, Tommi Jaakkola, Yuandong Tian, Bo Liu

개요

Diffusion 대규모 언어 모델(dLLM)은 여러 토큰을 병렬로 디코딩하는 능력으로 인해 자기 회귀 모델의 효율적인 대안으로 부상하고 있습니다. 그러나 dLLM을 강화 학습(RL)을 통해 인간 선호도 또는 특정 작업 보상에 맞추는 것은 어려운데, 이는 추적하기 어려운 로그 우도(log-likelihood) 때문에 표준 정책 경사 방법의 직접적인 적용을 방해하기 때문입니다. 기존 연구에서는 증거 하한(ELBO)과 같은 대리 변수를 사용하지만, 이러한 단방향 근사는 상당한 정책 경사 편향을 유발할 수 있습니다. 이러한 문제를 해결하기 위해 참 로그 우도의 상한과 하한을 모두 활용하는 Sandwiched Policy Gradient (SPG)를 제안합니다. 실험 결과 SPG가 ELBO 또는 1단계 추정에 기반한 기준선을 크게 능가하는 것으로 나타났습니다. 특히, SPG는 GSM8K에서 3.6%, MATH500에서 2.6%, Countdown에서 18.4%, Sudoku에서 27.0% 향상시켜 dLLM에 대한 최첨단 RL 방법보다 정확도를 향상시켰습니다.

시사점, 한계점

시사점:
SPG는 dLLM을 인간 선호도에 맞추는 RL에서 새로운 접근 방식을 제시합니다.
상한과 하한을 모두 활용하여 정책 경사 편향을 줄입니다.
GSM8K, MATH500, Countdown, Sudoku와 같은 다양한 벤치마크에서 기존 방법보다 성능이 향상되었습니다.
한계점:
구체적인 한계점은 논문에 명시되어 있지 않음. (논문 요약 내용만으로 판단하기 어려움)
👍