Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

Created by
  • Haebom

저자

Zhuokun Chen, Zeren Chen, Jiahao He, Lu Sheng, Mingkui Tan, Jianfei Cai, Bohan Zhuang

개요

Chain-of-thought (CoT)를 활용한 대규모 언어 모델(LLM)의 문제 해결 능력 향상은 높은 추론 비용을 발생시킵니다. R-Stitch는 SLM과 LLM 간의 계산을 위임하기 위해 토큰 수준 엔트로피를 불확실성 지표로 활용하는 훈련 없는 하이브리드 디코딩 프레임워크를 제시합니다. R-Stitch는 엔트로피가 높은 토큰을 LLM에 위임하여 전체 롤백을 방지하고 정답 품질을 유지합니다. R-Stitch$^{+}$는 고정된 임계값을 넘어 토큰 예산을 동적으로 조정하는 적응형 라우팅 정책을 학습합니다. 이 방법은 토큰별 디코딩 복잡성과 생성된 토큰 수를 줄여 상당한 속도 향상을 달성하면서도 정확도 손실을 최소화합니다. DeepSeek-R1-Distill-Qwen-7B에서 최대 3.00배, 14B에서 3.85배, QWQ-32B에서 4.10배의 속도 향상을 달성했습니다. 또한 재훈련 없이 다양한 계산 예산에 맞게 조정 가능한 적응형 효율성-정확도 트레이드 오프를 가능하게 합니다.

시사점, 한계점

시사점:
LLM의 추론 속도 향상을 위한 훈련 없는 하이브리드 디코딩 프레임워크 제시.
토큰 수준 엔트로피를 활용하여 SLM과 LLM 간의 계산 부하 분산.
R-Stitch$^{+}$를 통해 적응형 라우팅 정책 학습 및 동적 토큰 예산 조정.
다양한 모델과 환경에서 속도 향상 및 정확도 유지.
재훈련 없이 효율성-정확도 트레이드 오프 가능.
한계점:
구체적인 모델 아키텍처, 훈련 데이터, 하이퍼파라미터 등에 대한 정보 부족.
다양한 작업 및 LLM에 대한 일반화 성능에 대한 추가적인 검증 필요.
실제 사용 환경에서의 성능 평가 부족.
👍