Diffusion language models (dLLMs)은 자기 회귀(AR) 생성기의 새로운 대안으로 부상하고 있지만, 시퀀스 로그 가능도가 계산 불가능하고 쌍별 선호도 데이터를 수집하는 데 비용이 많이 들기 때문에 인간의 선호도에 맞추는 것이 어렵습니다. 본 논문에서는 diffusion 로그 가능도에 대한 ELBO 대리자(surrogate)와 전망 이론 기반의 비짝 선호도 목표(Kahneman Tversky Optimization, KTO)를 결합한 ELBO-KTO를 소개합니다. ELBO 대체로 인해 발생하는 편향과 분산을 분석하고, 훈련 중 기울기를 안정화하는 분산 감소 기법을 사용합니다. LLaDA-8B-Instruct에 적용한 결과, ELBO-KTO는 자동 LLM judge 하에서 kto-mix-14k 및 UltraFeedback-Binary에서 각각 65.9%와 62.3%의 조정된 승률을 기록했습니다. GSM8K, MMLU 및 추가 추론/지식 벤치마크를 포함한 다운스트림 작업에서 UltraFeedback-Binary로 훈련된 ELBO-KTO는 동일한 디코딩 하에서 기본 모델과 동등하거나 더 나은 성능을 보였습니다. 이는 비짝 선호도 최적화가 diffusion LLM에서 쌍별 정렬의 실행 가능한 대안임을 입증합니다.