본 논문은 대규모 추론 모델(LRM) 내 혼합 전문가(MoE) 구조의 추론 능력 향상을 위해, 추가 학습이나 복잡한 휴리스틱 없이 추론 성능을 개선하는 새로운 추론 시간 조향 방법론인 RICE(Reinforcing Cognitive Experts)를 제안합니다. 정규화된 점 상호 정보(nPMI)를 활용하여 메타 수준 추론 작업을 조율하는 ''''와 같은 토큰으로 특징지어지는 특수 전문가인 "인지 전문가"를 체계적으로 식별합니다. DeepSeek-R1 및 Qwen3-235B와 같은 주요 MoE 기반 LRM을 사용한 실험 결과, 추론 정확도, 인지 효율성 및 도메인 간 일반화에서 눈에 띄는 향상을 보였습니다. 또한, 프롬프트 설계 및 디코딩 제약과 같은 기존의 추론 조향 기술보다 훨씬 우수한 성능을 보이며, 모델의 일반적인 지시 사항 따르기 기술을 유지합니다.
시사점, 한계점
•
시사점:
◦
추가 학습 없이 MoE 기반 LRM의 추론 성능을 향상시키는 효과적인 방법 제시.
◦
nPMI를 활용한 인지 전문가 식별 및 조향을 통한 추론 효율성 개선.
◦
프롬프트 엔지니어링이나 디코딩 제약보다 우수한 성능 달성.
◦
해석 가능성이 높은 추론 조향 방법 제시.
◦
다양한 도메인에서의 일반화 성능 향상.
•
한계점:
◦
'""""와 같은 토큰에 의존하는 인지 전문가 식별 방식의 일반성 제한. 다른 유형의 추론 작업에는 적용이 어려울 수 있음.
◦
특정 MoE 기반 LRM에 대한 실험 결과만 제시되어 다른 모델이나 아키텍처로의 일반화 가능성에 대한 추가 연구 필요.