Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

Created by
  • Haebom

저자

Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu

개요

본 논문은 대규모 추론 모델(LRM) 내 혼합 전문가(MoE) 아키텍처의 추론 능력 향상을 위한 새로운 추론 시간 조향 방법론인 RICE(Reinforcing Cognitive Experts)를 제시합니다. RICE는 추가적인 훈련이나 복잡한 휴리스틱 없이 정규화된 점 상호 정보(nPMI)를 활용하여 메타 수준 추론 작업을 조율하는 '인지 전문가'를 체계적으로 식별함으로써 과도한 사고와 부족한 사고와 같은 인지적 비효율성을 해결합니다. DeepSeek-R1과 Qwen3-235B와 같은 주요 MoE 기반 LRM에 대한 실증적 평가 결과, 추론 정확도, 인지 효율성 및 도메인 간 일반화가 눈에 띄게 향상됨을 보여줍니다. 또한, 프롬프트 디자인이나 디코딩 제약과 같은 기존의 추론 조향 기술보다 성능이 뛰어나면서 모델의 일반적인 지시 사항 따르기 능력은 유지합니다.

시사점, 한계점

시사점:
추가적인 훈련 없이 MoE 기반 LRM의 추론 성능을 향상시키는 효과적인 방법 제시
nPMI를 활용한 인지 전문가 식별을 통한 과도한 사고 및 부족한 사고 문제 해결
기존 방법 대비 우수한 추론 정확도, 인지 효율성 및 도메인 간 일반화 성능 달성
경량화된 접근 방식으로 모델의 일반적인 지시 사항 따르기 능력 유지
인지 효율 향상을 위한 해석 가능하고 실용적인 방향 제시
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 MoE 기반 LRM 및 추론 벤치마크에 대한 추가적인 실험 필요
'인지 전문가'의 정의 및 식별 기준에 대한 더욱 명확한 설명 필요
특정 토큰을 기반으로 한 인지 전문가 식별의 한계 및 개선 방안에 대한 논의 필요
👍