Reconsidering Overthinking: Penalizing Internal and External Redundancy in CoT Reasoning
Created by
Haebom
저자
Jialiang Hong, Taihang Zhen, Kai Chen, Jiaheng Liu, Wenpeng Zhu, Jing Huo, Yang Gao, Depeng Wang, Haitao Wan, Xi Yang, Boyan Wang, Fanyu Meng
개요
본 논문은 대규모 추론 모델(LRMs)에서 발생하는 과도한 추론 과정(overthinking) 문제를 해결하기 위해, 과잉 추론을 내부 중복성(첫 번째 정답 도출 과정 내의 기여도 낮은 추론 단계)과 외부 중복성(첫 번째 정답 도출 이후의 불필요한 연장)으로 분해하여 접근하는 새로운 방법을 제시합니다. 내부 중복성 해결을 위해 슬라이딩 윈도우 의미 분석을 이용하여 정답 도출에 기여도가 낮은 단계에 페널티를 부여하고, 외부 중복성 해결을 위해 첫 번째 정답 이후의 과정 비율에 페널티를 부여하는 이중 페널티 강화 학습 프레임워크를 제안합니다. 제안된 방법은 정확도 저하를 최소화하면서 추론 과정을 상당히 압축하고, 질문 응답 및 코드 생성과 같은 도메인 외 작업에도 효과적으로 일반화됩니다. 또한, 외부 중복성은 성능 저하 없이 제거할 수 있지만, 내부 중복성은 정확성 저하를 피하기 위해 더 신중하게 줄여야 함을 밝혔습니다.
시사점, 한계점
•
시사점:
◦
대규모 추론 모델의 과도한 추론 문제를 내부 및 외부 중복성으로 분해하여 효과적으로 해결하는 새로운 방법 제시.
◦
슬라이딩 윈도우 의미 분석과 이중 페널티 강화 학습 프레임워크를 통해 추론 과정을 효율적으로 압축하고, 정확도 저하를 최소화.
◦
도메인 외 작업으로의 일반화 가능성 입증.
◦
내부 및 외부 중복성의 상대적 중요성을 밝힘으로써, 추론 과정 길이에 대한 암묵적이고 의미론적으로 인지된 제어 가능성 제시. 더 간결하고 해석 가능한 LRM 개발의 길을 열어줌.