Sign In

DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models

Created by
  • Haebom
Category
Empty

저자

Yi Shen, Jian Zhang, Jieyun Huang, Shuming Shi, Wenjing Zhang, Jiangze Yan, Ning Wang, Kai Wang, Shiguo Lian

개요

본 논문은 복잡한 추론 과제에서 뛰어난 성능을 보이는 느린 사고(slow-thinking) 추론 모델의 과도한 추론(overthinking) 문제를 해결하기 위한 새로운 프레임워크인 Difficulty-Adaptive Slow-Thinking (DAST)를 제시한다. DAST는 문제의 난이도에 따라 Chain-of-Thought(CoT)의 길이를 자율적으로 조정하여, 단순한 문제에 대해서는 불필요한 추론 단계를 줄이고 복잡한 문제에 대해서는 충분한 추론을 유지한다. 문제 난이도를 정량화하는 Token Length Budget (TLB) 지표를 제안하고, 길이 인식 보상 형성 및 길이 선호도 최적화를 통해 DAST를 구현한다. 다양한 데이터셋과 모델 규모에 대한 실험 결과, DAST는 평균 30% 이상의 토큰 사용량 감소 효과를 보이며, 복잡한 문제에 대한 추론 정확도는 유지하는 것으로 나타났다.

시사점, 한계점

시사점:
문제 난이도에 따라 추론 길이를 동적으로 조절하는 새로운 프레임워크 DAST를 제시하여, 느린 사고 추론 모델의 효율성을 향상시켰다.
TLB 지표를 통해 문제 난이도를 정량적으로 측정하는 방법을 제시하였다.
과도한 추론(overthinking) 문제를 효과적으로 완화하여 계산 자원 사용량을 줄였다.
복잡한 문제에 대한 추론 정확도를 유지하면서 토큰 사용량을 감소시켰다.
한계점:
TLB 지표의 일반성 및 다양한 문제 유형에 대한 적용 가능성에 대한 추가적인 연구가 필요하다.
DAST의 성능이 특정 모델이나 데이터셋에 편향될 가능성이 있다.
다른 overthinking 완화 전략과의 비교 분석이 부족하다.
👍