Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models

Created by
  • Haebom

저자

Yi Shen, Jian Zhang, Jieyun Huang, Shuming Shi, Wenjing Zhang, Jiangze Yan, Ning Wang, Kai Wang, Zhaoxiang Liu, Shiguo Lian

개요

본 논문은 복잡한 추론 과제에서 뛰어난 성능을 보이는 느린 사고 추론 모델의 과도한 추론(단순 문제에 불필요한 추론 단계 생성) 문제를 해결하기 위해, 문제 난이도에 따라 Chain-of-Thought(CoT)의 길이를 자율적으로 조정하는 새로운 프레임워크인 Difficulty-Adaptive Slow Thinking (DAST)를 제안합니다. 난이도를 정량화하는 Token Length Budget (TLB) 지표를 제시하고, 예산 인식 보상 형성 및 예산 선호도 최적화를 통해 DAST를 구현합니다. 다양한 데이터셋과 모델 규모에 대한 실험을 통해 DAST가 과도한 추론을 효과적으로 완화하면서(평균 30% 이상 토큰 사용량 감소) 복잡한 문제에 대한 추론 정확도를 유지함을 보여줍니다.

시사점, 한계점

시사점:
문제 난이도에 따라 추론 단계의 길이를 동적으로 조절하여 느린 사고 추론 모델의 효율성을 크게 향상시킬 수 있음을 보여줌.
과도한 추론으로 인한 계산 자원 낭비를 줄이고, 모델 성능을 최적화하는 새로운 방법을 제시함.
TLB 지표와 예산 인식 보상 형성 및 예산 선호도 최적화 기법은 다른 추론 모델에도 적용 가능한 일반적인 접근 방식임.
한계점:
제안된 TLB 지표의 난이도 측정 정확도에 대한 추가적인 검증이 필요함.
다양한 유형의 문제에 대한 일반화 성능 평가가 더 필요함.
현재는 특정 유형의 추론 모델(CoT 기반)에 국한되어 적용됨. 다른 유형의 추론 모델에 대한 적용 가능성 연구가 필요함.
👍