R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing
Created by
Haebom
저자
Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang
개요
본 논문은 대규모 언어 모델(LLM)의 높은 추론 오버헤드 문제를 해결하기 위해, 소규모 언어 모델(SLM)과 LLM을 결합하는 새로운 방법인 Roads to Rome (R2R)을 제시합니다. R2R은 LLM과 SLM의 추론 경로가 실제로는 소수의 토큰에서만 차이를 보인다는 점에 착안하여, 이러한 차이가 발생하는 중요한 토큰에 대해서만 LLM을 활용하고 나머지는 SLM으로 생성합니다. 자동 데이터 생성 파이프라인을 통해 경로 차이 토큰을 식별하고 라벨을 생성하여 경량화된 라우터를 학습시킵니다. DeepSeek 계열의 R1-1.5B와 R1-32B 모델에 R2R을 적용한 결과, 평균 5.6B의 활성화 매개변수 크기로 R1-7B 모델보다 1.6배 높은 정확도를 달성했으며, R1-32B 모델과 비교하여 성능 저하 없이 2.8배 빠른 속도를 보였습니다.
시사점, 한계점
•
시사점:
◦
LLM의 높은 추론 비용 문제를 효과적으로 해결하는 새로운 방법 제시.
◦
LLM과 SLM의 장점을 결합하여 성능과 효율성을 동시에 향상.
◦
매개변수 크기 대비 성능을 획기적으로 개선, 테스트 시간 확장 효율성의 Pareto frontier를 개선.
◦
자동 데이터 생성 파이프라인을 통해 R2R 학습을 위한 데이터 생성을 자동화.
•
한계점:
◦
R2R의 성능 향상은 특정 모델(DeepSeek)에 대한 결과이며, 다른 모델에 적용했을 때의 일반화 성능은 추가 연구가 필요.