DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains

Created by

Haebom

저자

Tian Liang, Wenxiang Jiao, Zhiwei He, Jiahao Xu, Haitao Mi, Dong Yu

💡 개요

본 논문은 대규모 추론 모델(LRM)의 인지 비효율성, 즉 쉬운 문제는 과도하게 추론하고 어려운 문제는 덜 추론하는 문제를 해결하기 위해 DeepCompress라는 새로운 프레임워크를 제안합니다. DeepCompress는 문제의 난이도를 실시간으로 동적으로 분류하고, 쉬운 문제에는 효율적인 짧은 추론을, 어려운 문제에는 탐색적인 긴 추론을 장려하는 이중 보상 전략을 사용합니다. 이를 통해 모델은 추론 체인의 길이를 자율적으로 조절하여 정확도와 효율성을 동시에 향상시킵니다.

🔑 시사점 및 한계

•

문제 난이도에 따라 추론 길이 및 탐색 전략을 동적으로 조절하는 것이 LRM의 정확도와 효율성 향상에 효과적입니다.

•

항상 짧은 추론 경로를 선호하는 기존 방식의 한계를 극복하고, 어려운 문제에 대한 정확도를 높이기 위해 더 길고 탐색적인 추론이 필요할 수 있음을 보여줍니다.

•

복잡한 수학 문제 벤치마크에서 기존 방법론 대비 우수한 정확도와 토큰 효율성을 달성했습니다.

•

난이도 분류의 정확성 및 동적 조절 메커니즘의 일반화 가능성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage