Dr.LLM: Dynamic Layer Routing in LLMs

작성자

Haebom

카테고리

Empty

저자

Ahmed Heakl, Martin Gubri, Salman Khan, Sangdoo Yun, Seong Joon Oh

💡 개요

본 논문은 대규모 언어 모델(LLM)이 모든 토큰을 모든 레이어를 거치도록 하여 단순한 질의에는 불필요한 계산이 발생하고 복잡한 질의에는 깊이 있는 추론이 부족하다는 문제를 제기합니다. 이를 해결하기 위해 Dr.LLM은 사전 학습된 LLM에 경량 라우터를 추가하여 각 레이어를 건너뛸지, 실행할지, 반복할지 동적으로 결정하는 새로운 프레임워크를 제안합니다. Monte Carlo Tree Search(MCTS)를 활용한 명시적인 감독 학습을 통해 정확도를 유지하거나 향상시키면서 컴퓨팅 예산을 절감하는 고품질 레이어 구성을 도출합니다.

🔑 시사점 및 한계

•

Dr.LLM은 기존 LLM의 가중치를 변경하지 않고도 효율성과 정확도를 동시에 향상시킬 수 있는 "후처리(retrofittable)" 가능한 접근 방식을 제공합니다.

•

명시적인 감독 학습과 특수하게 설계된 라우터 아키텍처는 기존 동적 깊이 모델의 정확도 저하 문제를 극복하고 다양한 도메인에서 우수한 일반화 성능을 보여줍니다.

•

향후 연구는 더 복잡한 작업이나 긴 시퀀스에 대한 라우터의 성능을 더욱 개선하고, 라우팅 결정 과정의 해석 가능성을 높이는 방향으로 진행될 수 있습니다.

PDF 보기

Made with Slashpage