DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models
Created by
Haebom
Category
Empty
저자
Yi Shen, Jian Zhang, Jieyun Huang, Shuming Shi, Wenjing Zhang, Jiangze Yan, Ning Wang, Kai Wang, Shiguo Lian
개요
본 논문은 복잡한 추론 과제에서 뛰어난 성능을 보이는 느린 사고(slow-thinking) 추론 모델의 과도한 추론(overthinking) 문제를 해결하기 위한 새로운 프레임워크인 Difficulty-Adaptive Slow-Thinking (DAST)를 제시한다. DAST는 문제의 난이도에 따라 Chain-of-Thought(CoT)의 길이를 자율적으로 조정하여, 단순한 문제에 대해서는 불필요한 추론 단계를 줄이고 복잡한 문제에 대해서는 충분한 추론을 유지한다. 문제 난이도를 정량화하는 Token Length Budget (TLB) 지표를 제안하고, 길이 인식 보상 형성 및 길이 선호도 최적화를 통해 DAST를 구현한다. 다양한 데이터셋과 모델 규모에 대한 실험 결과, DAST는 평균 30% 이상의 토큰 사용량 감소 효과를 보이며, 복잡한 문제에 대한 추론 정확도는 유지하는 것으로 나타났다.
시사점, 한계점
•
시사점:
◦
문제 난이도에 따라 추론 길이를 동적으로 조절하는 새로운 프레임워크 DAST를 제시하여, 느린 사고 추론 모델의 효율성을 향상시켰다.
◦
TLB 지표를 통해 문제 난이도를 정량적으로 측정하는 방법을 제시하였다.
◦
과도한 추론(overthinking) 문제를 효과적으로 완화하여 계산 자원 사용량을 줄였다.
◦
복잡한 문제에 대한 추론 정확도를 유지하면서 토큰 사용량을 감소시켰다.
•
한계점:
◦
TLB 지표의 일반성 및 다양한 문제 유형에 대한 적용 가능성에 대한 추가적인 연구가 필요하다.