Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning

Created by
  • Haebom

저자

Xiaoxue Cheng, Junyi Li, Zhenduo Zhang, Xinyu Tang, Wayne Xin Zhao, Xinyu Kong, Zhiqiang Zhang

개요

본 논문은 대규모 추론 모델(LRMs)의 과도한 추론 문제를 해결하기 위해 적응적 인지 정책 최적화(ACPO)라는 강화 학습 프레임워크를 제안합니다. ACPO는 인지 과학의 이중 과정 이론에서 영감을 받아, 시스템 인식 추론 토큰을 도입하여 모델의 인지 과정을 투명하게 만들고, 온라인 난이도 추정 및 토큰 길이 예산을 통합하여 적응적 시스템 전환 및 추론을 유도합니다. 두 단계 학습 전략(지도 학습 미세 조정 및 ACPO 적용)을 통해 복잡한 추론 과제에서 효율적인 혼합 추론을 달성하고 불필요한 추론을 줄이며 과제의 복잡성에 따라 인지 자원을 적응적으로 조절합니다.

시사점, 한계점

시사점:
대규모 추론 모델의 과도한 추론 문제를 효과적으로 해결하는 새로운 강화 학습 프레임워크(ACPO) 제시
시스템 인식 추론 토큰 도입을 통한 모델의 인지 과정 투명성 확보
온라인 난이도 추정 및 토큰 길이 예산을 활용한 적응적 시스템 전환 및 추론 가능
과제 복잡성에 따른 효율적인 혼합 추론 및 인지 자원의 적응적 할당 실현
한계점:
제안된 ACPO의 일반화 성능에 대한 추가적인 실험 및 분석 필요
난이도 추정의 정확성이 ACPO 성능에 미치는 영향에 대한 심층적인 연구 필요
다양한 유형의 추론 과제에 대한 ACPO의 적용성 및 효과 검증 필요
실제 응용 환경에서의 ACPO 성능 평가 및 안정성 확보 필요
👍