Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping

Created by
  • Haebom

저자

Ren Zhuang, Ben Wang, Shuifa Sun

개요

본 논문은 대규모 언어 모델의 사고 연쇄(CoT) 프롬프팅에서 발생하는 과도한 계산 비용과 지연 시간 문제를 해결하기 위해, 적응형 GoGI-Skip 프레임워크를 제안합니다. 기존의 CoT 압축 기법들이 일반적인 중요도 척도와 고정된 압축률에 의존하는 것과 달리, 본 연구는 목표-기울기 중요도(GoGI)라는 새로운 척도와 적응적 동적 건너뛰기(ADS) 메커니즘을 제시합니다. GoGI는 중간 표현의 기울기 영향을 측정하여 기능적으로 관련된 토큰을 정확하게 식별하고, ADS는 실행 시간 모델의 불확실성에 따라 압축률을 동적으로 조절하면서 국소적 일관성을 유지합니다. MATH 데이터셋으로 학습된 Adaptive GoGI-Skip은 AIME, GPQA, GSM8K와 같은 다양한 추론 벤치마크에서 강력한 도메인 간 일반화 성능을 보이며, 평균 45% 이상의 CoT 토큰 수 감소와 1.6~2.0배의 추론 속도 향상을 달성합니다. 높은 압축률에서도 정확도를 유지하면서 기존 기준 모델들을 상당히 능가하여 CoT 추론의 효율성-정확도 절충점을 개선합니다.

시사점, 한계점

시사점:
목표 지향적이고 기울기 기반의 중요도 척도와 동적이고 불확실성을 고려한 건너뛰기 메커니즘을 통합한 최초의 연구입니다.
CoT 압축에서 효율성과 정확도 간의 절충 관계를 개선하여, 계산 비용과 지연 시간을 크게 줄이면서 높은 추론 정확도를 유지합니다.
다양한 추론 벤치마크에서 강력한 도메인 간 일반화 성능을 보입니다.
한계점:
MATH 데이터셋을 사용하여 학습되었으므로, 다른 데이터셋에 대한 일반화 성능은 추가적인 연구가 필요합니다.
ADS 메커니즘의 최적의 N-token 제약 조건 설정에 대한 추가적인 연구가 필요할 수 있습니다.
실제 응용 환경에서의 성능 평가가 추가적으로 필요합니다.
👍