Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting

Created by
  • Haebom

저자

Yifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo

개요

본 논문은 기존 사고 과정(CoT) 증류 방법의 과도한 추론 과정 길이와 문제 난이도에 대한 부적응성이라는 두 가지 주요 한계점을 해결하기 위해 난이도 인식 프롬프팅(DAP) 기법을 제안합니다. DAP는 대규모 교사 모델을 이용하여 문제의 난이도를 판단하고, 그에 맞춰 추론 과정의 길이를 동적으로 조정하여 간결하면서도 완전한 추론 과정을 생성합니다. 이를 통해 100K 개의 간결한 추론 예제로 구성된 LiteCoT 데이터셋을 생성하고, 이를 기반으로 Qwen2.5 아키텍처를 사용하여 Liter (1.5B, 7B, 32B)라는 새로운 추론 모델들을 증류했습니다. 실험 결과, 100K 개의 난이도별로 다듬어진 CoT 샘플로 미세 조정된 학생 모델이 800K 개의 원래 긴 CoT 샘플로 증류된 모델보다 성능이 우수하며, 훈련 및 추론 비용이 크게 감소했습니다. 11가지 다양한 벤치마크에서도 훨씬 적은 토큰을 사용하면서 긴 추론 과정보다 동등하거나 더 나은 정확도를 달성했습니다.

시사점, 한계점

시사점:
난이도 인식 프롬프팅(DAP)을 통해 기존 CoT 증류 방법의 한계점인 과도한 추론 과정 길이와 문제 난이도에 대한 부적응성을 효과적으로 해결.
훨씬 적은 토큰을 사용하면서 기존 방법보다 높거나 동등한 성능 달성 (AIME24 예시 포함).
LiteCoT 데이터셋 및 Liter 모델을 통해 추론 비용을 크게 절감.
다양한 벤치마크에서 우수한 일반화 성능을 보임.
한계점:
DAP의 난이도 판단 정확도에 따라 성능이 영향을 받을 수 있음.
Qwen2.5 아키텍처에 기반한 모델이므로 다른 아키텍처에 대한 일반화 성능은 추가 연구 필요.
100K의 데이터셋 크기가 모든 유형의 문제에 충분한지에 대한 추가적인 검증 필요.
👍