Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning

Created by
  • Haebom

저자

Xiaoxue Cheng, Junyi Li, Zhenduo Zhang, Xinyu Tang, Wayne Xin Zhao, Xinyu Kong, Zhiqiang Zhang

개요

대규모 추론 모델(LRM)은 복잡한 추론 작업에서 강력한 성능을 보이지만, 작업 난이도에 관계없이 과도한 추론을 하여 불필요한 내용을 생성하는 문제가 있습니다. 본 논문에서는 인지 과학의 이중 과정 이론에서 영감을 얻어, 적응적 인지 할당 및 동적 시스템 전환을 통해 LRM이 효율적인 추론을 달성할 수 있도록 하는 강화 학습 프레임워크인 적응적 인지 정책 최적화(ACPO)를 제안합니다. ACPO는 두 가지 주요 구성 요소를 포함합니다. (1) 사고 방식을 명시적으로 나타내는 시스템 인식 추론 토큰을 도입하여 모델의 인지 과정을 투명하게 만듭니다. (2) 온라인 난이도 추정 및 토큰 길이 예산을 통합하여 강화 학습 중 적응적 시스템 전환 및 추론을 안내합니다. 이를 위해 2단계 교육 전략을 제안합니다. 1단계는 감독식 미세 조정으로 모델을 시작하여 명시적인 사고 방식으로 추론 경로를 생성할 수 있도록 합니다. 2단계에서는 ACPO를 적용하여 난이도 인식 추론을 위한 적응적 시스템 전환을 더욱 향상시킵니다. 실험 결과에 따르면 ACPO는 불필요한 추론을 효과적으로 줄이고 작업 복잡도에 따라 적응적으로 인지 할당을 조정하여 효율적인 하이브리드 추론을 달성합니다.

시사점, 한계점

시사점:
과도한 추론 문제를 해결하기 위한 새로운 강화 학습 프레임워크인 ACPO 제시
작업 난이도에 따라 적응적으로 인지 자원을 할당하는 효율적인 추론 방식 제시
시스템 인식 추론 토큰을 통해 모델의 인지 과정을 투명하게 함
난이도 인식 추론을 위한 효과적인 2단계 교육 전략 제시
한계점:
제안된 ACPO의 일반성 및 다양한 작업에 대한 적용 가능성에 대한 추가 연구 필요
온라인 난이도 추정의 정확도 및 신뢰도에 대한 추가 분석 필요
더욱 복잡하고 다양한 추론 작업에 대한 성능 평가 필요
👍