Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation
Created by
Haebom
Category
Empty
저자
Yi Bin, Tianyi Jiang, Yujuan Ding, Kainian Zhu, Fei Ma, Jingkuan Song, Yang Yang, Heng Tao Shen
💡 개요
본 논문은 대규모 언어 모델(LLM)이 복잡한 문제에 대해 장황한 추론 과정을 생성하는 '과잉 사고(overthinking)' 문제를 해결하고자 합니다. 이를 위해 추론 과정 전반에 걸친 탐색 정도를 측정하는 새로운 지표인 '토큰 엔트로피 누적 평균(TECA)'을 제안하고, 이를 활용하여 모델이 최적의 사고 중단 시점을 동적으로 결정하도록 돕는 '간략히 탐색 후 결정(Explore Briefly, Then Decide)'이라는 새로운 추론 패러다임을 제시합니다. 실험 결과, 제안된 누적 엔트로피 조절(CER) 메커니즘을 통해 과잉 사고를 효과적으로 완화하면서도 문제 해결 능력을 유지함을 입증했습니다.
🔑 시사점 및 한계
•
LLM의 추론 과정을 문제 복잡성에 맞게 동적으로 조절하여 효율성을 높일 수 있습니다.
•
'간략히 탐색 후 결정' 패러다임은 불필요한 연산을 줄여 모델의 응답 시간을 단축시킬 수 있습니다.
•
제안된 TECA 지표가 모든 유형의 LLM 및 다양한 문제 도메인에서 일관된 효과를 보일지에 대한 추가적인 검증이 필요합니다.