Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reconsidering Overthinking: Penalizing Internal and External Redundancy in CoT Reasoning

Created by
  • Haebom

저자

Jialiang Hong, Taihang Zhen, Kai Chen, Jiaheng Liu, Wenpeng Zhu, Jing Huo, Yang Gao, Depeng Wang, Haitao Wan, Xi Yang, Boyan Wang, Fanyu Meng

개요

본 논문은 대규모 추론 모델(LRMs)에서 발생하는 과도한 추론 과정(overthinking) 문제를 해결하기 위해, 과잉 추론을 내부 중복성(첫 번째 정답 도출 과정 내의 기여도 낮은 추론 단계)과 외부 중복성(첫 번째 정답 도출 이후의 불필요한 연장)으로 분해하여 접근하는 새로운 방법을 제시합니다. 내부 중복성 해결을 위해 슬라이딩 윈도우 의미 분석을 이용하여 정답 도출에 기여도가 낮은 단계에 페널티를 부여하고, 외부 중복성 해결을 위해 첫 번째 정답 이후의 과정 비율에 페널티를 부여하는 이중 페널티 강화 학습 프레임워크를 제안합니다. 제안된 방법은 정확도 저하를 최소화하면서 추론 과정을 상당히 압축하고, 질문 응답 및 코드 생성과 같은 도메인 외 작업에도 효과적으로 일반화됩니다. 또한, 외부 중복성은 성능 저하 없이 제거할 수 있지만, 내부 중복성은 정확성 저하를 피하기 위해 더 신중하게 줄여야 함을 밝혔습니다.

시사점, 한계점

시사점:
대규모 추론 모델의 과도한 추론 문제를 내부 및 외부 중복성으로 분해하여 효과적으로 해결하는 새로운 방법 제시.
슬라이딩 윈도우 의미 분석과 이중 페널티 강화 학습 프레임워크를 통해 추론 과정을 효율적으로 압축하고, 정확도 저하를 최소화.
도메인 외 작업으로의 일반화 가능성 입증.
내부 및 외부 중복성의 상대적 중요성을 밝힘으로써, 추론 과정 길이에 대한 암묵적이고 의미론적으로 인지된 제어 가능성 제시. 더 간결하고 해석 가능한 LRM 개발의 길을 열어줌.
한계점:
제안된 방법의 효율성 및 일반화 가능성에 대한 추가적인 실험 및 분석 필요.
슬라이딩 윈도우 의미 분석의 매개변수 설정에 대한 민감도 분석 필요.
다양한 유형의 LRM과 작업에 대한 적용 가능성 및 성능 평가 필요.
👍