Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Aligning Diffusion Language Models via Unpaired Preference Optimization

Created by
  • Haebom

저자

Vaibhav Jindal, Hejian Sang, Chun-Mao Lai, Yanning Chen, Zhipeng Wang

개요

Diffusion language models (dLLMs)은 자기 회귀(AR) 생성기의 새로운 대안으로 부상하고 있지만, 시퀀스 로그 가능도가 계산 불가능하고 쌍별 선호도 데이터를 수집하는 데 비용이 많이 들기 때문에 인간의 선호도에 맞추는 것이 어렵습니다. 본 논문에서는 diffusion 로그 가능도에 대한 ELBO 대리자(surrogate)와 전망 이론 기반의 비짝 선호도 목표(Kahneman Tversky Optimization, KTO)를 결합한 ELBO-KTO를 소개합니다. ELBO 대체로 인해 발생하는 편향과 분산을 분석하고, 훈련 중 기울기를 안정화하는 분산 감소 기법을 사용합니다. LLaDA-8B-Instruct에 적용한 결과, ELBO-KTO는 자동 LLM judge 하에서 kto-mix-14k 및 UltraFeedback-Binary에서 각각 65.9%와 62.3%의 조정된 승률을 기록했습니다. GSM8K, MMLU 및 추가 추론/지식 벤치마크를 포함한 다운스트림 작업에서 UltraFeedback-Binary로 훈련된 ELBO-KTO는 동일한 디코딩 하에서 기본 모델과 동등하거나 더 나은 성능을 보였습니다. 이는 비짝 선호도 최적화가 diffusion LLM에서 쌍별 정렬의 실행 가능한 대안임을 입증합니다.

시사점, 한계점

ELBO-KTO는 diffusion LLM을 인간의 선호도에 맞추는 새로운 방법론을 제시하며, ELBO 대리자와 KTO를 결합하여 효과적인 학습을 가능하게 함.
실험 결과, ELBO-KTO는 다양한 벤치마크에서 기본 모델 대비 향상된 성능을 보임.
비짝 선호도 최적화가 쌍별 정렬의 대안으로 사용될 수 있음을 입증.
ELBO 대체로 인한 편향 및 분산 분석, 분산 감소 기법 적용.
논문에서 제시된 방법론의 일반화 가능성 및 다른 LLM 모델에 대한 적용 여부에 대한 추가 연구 필요.
ELBO-KTO의 성능이 데이터셋, 하이퍼파라미터 등에 민감하게 반응할 수 있다는 점 고려해야 함.
👍