Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

Created by
  • Haebom

저자

Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang

개요

본 논문은 대규모 언어 모델(LLM)의 높은 추론 오버헤드 문제를 해결하기 위해, 소규모 언어 모델(SLM)과 LLM을 결합하는 새로운 방법인 Roads to Rome (R2R)을 제시합니다. R2R은 LLM과 SLM의 추론 경로가 실제로는 소수의 토큰에서만 차이를 보인다는 점에 착안하여, 이러한 차이가 발생하는 중요한 토큰에 대해서만 LLM을 활용하고 나머지는 SLM으로 생성합니다. 자동 데이터 생성 파이프라인을 통해 경로 차이 토큰을 식별하고 라벨을 생성하여 경량화된 라우터를 학습시킵니다. DeepSeek 계열의 R1-1.5B와 R1-32B 모델에 R2R을 적용한 결과, 평균 5.6B의 활성화 매개변수 크기로 R1-7B 모델보다 1.6배 높은 정확도를 달성했으며, R1-32B 모델과 비교하여 성능 저하 없이 2.8배 빠른 속도를 보였습니다.

시사점, 한계점

시사점:
LLM의 높은 추론 비용 문제를 효과적으로 해결하는 새로운 방법 제시.
LLM과 SLM의 장점을 결합하여 성능과 효율성을 동시에 향상.
매개변수 크기 대비 성능을 획기적으로 개선, 테스트 시간 확장 효율성의 Pareto frontier를 개선.
자동 데이터 생성 파이프라인을 통해 R2R 학습을 위한 데이터 생성을 자동화.
한계점:
R2R의 성능 향상은 특정 모델(DeepSeek)에 대한 결과이며, 다른 모델에 적용했을 때의 일반화 성능은 추가 연구가 필요.
경로 차이 토큰 식별 및 라우팅의 정확성이 R2R 성능에 영향을 미칠 수 있음.
자동 데이터 생성 파이프라인의 성능 및 일반화 가능성에 대한 추가적인 분석 필요.
👍