Attention Drift: What Autoregressive Speculative Decoding Models Learn

작성자

Haebom

카테고리

Empty

저자

Do\u{g}a\c{c} Eldenk, Payal Mohapatra, Yigitcan Comlek, Kaan Oktay, Hongyang Zhang, Stephen Xia

💡 개요

본 논문은 자기회귀적 추측 디코딩 모델에서 발생하는 "어텐션 드리프트" 현상을 규명하고 이를 해결하기 위한 새로운 아키텍처 변경을 제안합니다. 어텐션 드리프트는 추측 체인에서 생성되는 토큰이 길어질수록 프롬프트에서 점차 멀어져 최근 생성된 토큰에 대한 주의가 집중되는 현상입니다. 연구진은 이러한 드리프트를 완화하기 위해 포스트-정규화 및 per-hidden-state RMSNorm을 도입했으며, 이를 통해 다양한 벤치마크에서 성능을 크게 향상시켰습니다.

🔑 시사점 및 한계

•

추측 디코딩 모델의 성능 저하 원인으로 '어텐션 드리프트'라는 새로운 현상을 제시하며, 이는 드래프터 설계 자체의 근본적인 속성임을 시사합니다.

•

포스트-정규화 및 RMSNorm을 활용한 아키텍처 변경이 템플릿 변경, 긴 컨텍스트, 일반 벤치마크 등 다양한 상황에서 추측 디코딩의 수용 길이를 획기적으로 개선할 수 있음을 보여줍니다.

•

제안된 아키텍처 변경이 학습 시 짧은 추측 깊이에서도 더 긴 추측 시퀀스에 대해 일반화될 수 있음을 시사합니다.

•

본 연구에서 제안된 아키텍처 변경의 일반적인 적용 가능성 및 다른 추측 디코딩 모델에서의 효과에 대한 추가적인 실험이 필요할 수 있습니다.

PDF 보기

Made with Slashpage