Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models

Created by
  • Haebom
Category
Empty

저자

Sanghyun Lee, Seungryong Kim, Jongho Park, Dongmin Park

개요

Masked Diffusion Models (MDMs)의 토큰 생성 시 unmasking 순서가 성능에 미치는 영향에 주목하여, Lookahead Unmasking (LookUM)을 제안합니다. 이 방법은 전체 unmasking 순서에 대한 경로 선택을 통해 오류를 최소화하며, 추가적인 테스트 시간 계산을 활용합니다. LookUM은 경로 생성기와 검증기를 사용하여 불확실성이 높은 경로를 피하고, 수학, 계획, 코딩 등 다양한 벤치마크에서 일관된 성능 향상을 보입니다. 특히 LLaDA 및 post-trained LLaDA 1.5에서 RL 튜닝된 모델에 필적하거나 능가하는 성능을 보이며, 강화 학습과 무관하게 불확실성 기반 검증의 이점을 보여줍니다.

시사점, 한계점

MDM의 unmasking 순서 문제를 해결하기 위해 Lookahead Unmasking (LookUM) 프레임워크 제안.
경로 생성기와 검증기를 활용하여 불확실성이 높은 unmasking 순서를 효과적으로 회피.
수학, 계획, 코딩 등 다양한 벤치마크에서 일관된 성능 향상.
LLaDA 및 LLaDA 1.5에서 RL 튜닝된 모델에 필적하는 성능 달성 및 추가적인 성능 향상.
불확실성 기반 검증이 강화 학습과 독립적으로 작동하며, 다양한 모델에 적용 가능함을 입증.
한계점: 구체적인 구현 세부 사항 및 계산 비용에 대한 정보 부족.
👍