Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Overthinking through Reasoning Shaping

Created by
  • Haebom

저자

Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang

개요

Reinforcement Learning from Verifier Reward (RLVR)을 통해 향상된 대규모 추론 모델(LRM)은 문제 해결에 뛰어나지만 과도한 추론으로 인해 계산 비용이 증가하는 문제가 있다. 토큰 수준의 처벌은 모델 성능을 저하시키는 경향이 있어, 본 논문에서는 효율성과 정확성 간의 균형을 위해 세분화된 감독 방식의 중요성을 강조하고, 추론을 정규화하기 위한 단계별 방법인 Group Relative Segment Penalization (GRSP)를 제안한다. GRSP는 세그먼트 클러스터 전체에서 길이 인지 가중 메커니즘을 사용하여 토큰 효율성을 향상시키면서도 정확도를 유지하며, 특히 어려운 문제에서 강점을 보인다. 또한, GRSP는 RL 학습을 안정화시키고 다양한 모델 크기에 효과적으로 적용될 수 있다.

시사점, 한계점

GRSP는 토큰 효율성을 향상시키면서도 정확도 저하를 최소화한다.
특히 어려운 문제에 대한 성능 향상에 기여한다.
RL 학습의 안정성을 높인다.
다양한 모델 크기에 효과적으로 적용 가능하다.
논문에서 제안하는 GRSP의 구체적인 구현 방식 및 세부 설정에 대한 추가적인 정보가 필요할 수 있다.
다른 종류의 추론 문제에 대한 GRSP의 일반화 성능에 대한 추가적인 연구가 필요할 수 있다.
👍