Entropy Aware Reward Guidance for Diffusion Language Model Alignment

작성자

Haebom

카테고리

Empty

저자

Atula Tejaswi, Litu Rout, Constantine Caramanis, Sanjay Shakkottai, Sujay Sanghavi

💡 개요

본 논문은 이산적인 토큰을 출력하는 확산 언어 모델(Diffusion Language Model)에서 보상 안내(Reward Guidance)를 적용하기 위한 새로운 방법론인 EntRGi를 제안합니다. EntRGi는 토큰별 예측 엔트로피를 활용하여 연속적인 토큰 완화(token relaxation)와 실제 이산적인 토큰 샘플링 사이를 동적으로 조정함으로써, 기존 방법론들이 보상 모델의 신뢰도와 최적화 정확도 중 하나를 희생해야 했던 문제를 해결합니다.

🔑 시사점 및 한계

•

확산 언어 모델에서 보상 안내를 효과적으로 적용하기 위한 새로운 메커니즘(EntRGi)을 제시했습니다.

•

EntRGi는 보상 모델의 신뢰도와 최적화 정확도를 동시에 유지하며 성능을 향상시킬 수 있음을 입증했습니다.

•

제안된 EntRGi와 RGRL(Reward Guided Reinforcement Learning) 기법을 통해 테스트 시간 적응 및 사후 훈련에서 최신 기술 대비 일관된 성능 향상을 보여주었습니다.

•

EntRGi의 효과는 7B 파라미터 확산 언어 모델을 대상으로 실험적으로 검증되었습니다.

•

향후 연구에서는 더 큰 규모의 모델이나 다양한 언어 생성 작업에 EntRGi를 적용하여 일반화 성능을 평가하는 것이 필요합니다.

PDF 보기

Made with Slashpage