Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

Created by
  • Haebom

저자

Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin

개요

본 논문은 검증 가능한 보상을 사용한 강화 학습(RLVR)을 통해 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 메커니즘을 토큰 엔트로피 패턴이라는 새로운 관점에서 탐구한다. Chain-of-Thought(CoT) 추론에서 토큰 엔트로피 패턴을 분석하여 소수의 토큰만이 높은 엔트로피를 나타내며, 이러한 토큰이 다양한 추론 경로로 모델을 유도하는 중요한 분기점 역할을 한다는 것을 발견했다. RLVR 훈련 중 엔트로피 패턴의 변화를 연구한 결과, RLVR은 기본 모델의 엔트로피 패턴을 대체로 따르며, 주로 고엔트로피 토큰의 엔트로피를 조정한다는 것을 알아냈다. 고엔트로피 토큰(분기 토큰)에 대한 정책 기울기 업데이트를 제한하여 RLVR을 개선했으며, 80/20 규칙을 넘어서는 결과를 얻었다. 즉, Qwen3-8B 기본 모델에서는 전체 기울기 업데이트와 비슷한 성능을 유지하면서 20%의 토큰만 사용했고, Qwen3-32B 및 Qwen3-14B 기본 모델에서는 전체 기울기 업데이트보다 성능이 크게 향상되었다 (AIME'25 및 AIME'24에서 각각 상당한 성능 향상). 반대로, 낮은 엔트로피 토큰 80%만을 사용하여 훈련하면 성능이 크게 저하된다. 이러한 결과는 RLVR의 효과가 주로 추론 방향을 결정하는 고엔트로피 토큰을 최적화하는 데서 비롯된다는 것을 시사한다. 결론적으로, 본 연구는 토큰 엔트로피 관점에서 RLVR을 이해하고 고엔트로피 소수 토큰을 활용하여 RLVR을 최적화하여 LLM 추론을 더욱 향상시킬 수 있는 잠재력을 강조한다.

시사점, 한계점

시사점:
RLVR의 효과적인 메커니즘을 토큰 엔트로피 패턴이라는 새로운 관점에서 설명.
고엔트로피 토큰(분기 토큰)이 RLVR의 성능에 중요한 역할을 한다는 것을 규명.
고엔트로피 토큰에 집중하여 RLVR을 효율적으로 개선하는 방법 제시 (80/20 규칙을 뛰어넘는 성능 향상).
LLM 추론 성능 향상을 위한 새로운 전략 제시.
한계점:
본 연구의 결과가 특정 LLM (Qwen 시리즈)과 데이터셋 (AIME)에 국한될 가능성.
다른 LLM이나 다른 유형의 추론 작업에 대한 일반화 가능성에 대한 추가 연구 필요.
고엔트로피 토큰 선택 기준 및 정의에 대한 추가적인 연구 필요.
엔트로피 이외의 다른 요소들이 RLVR 성능에 미치는 영향에 대한 추가 분석 필요.
👍