Sign In

Enhancing Reasoning Abilities of Small LLMs with Cognitive Alignment

Created by
  • Haebom
Category
Empty

저자

Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang

개요

본 논문은 대규모 추론 모델(LRM)의 발전에 따라 자원 효율적인 소규모 추론 모델 훈련의 필요성을 제기하며, 이를 위해 Critique-Rethink-Verify (CRV) 시스템과 Cognitive Preference Optimization (CogPO) 알고리즘을 제안한다. CRV 시스템은 소규모 모델의 인지 능력에 맞춰 CoT(Chain-of-Thought)를 비판, 재고, 검증하는 여러 LLM 에이전트로 구성된다. CogPO 알고리즘은 소규모 모델의 추론 과정을 인지 능력에 맞춰 지속적으로 향상시킨다. 제안된 CRV+CogPO 프레임워크는 어려운 추론 벤치마크에서 다른 방법들을 크게 능가하는 성능을 보였다.

시사점, 한계점

소규모 모델 훈련을 위한 효율적인 CRV 시스템과 CogPO 알고리즘 제안
소규모 모델의 인지 능력에 맞는 추론 과정 정렬
다른 방법 대비 우수한 성능 입증
구체적인 CRV 시스템 내 LLM 에이전트의 역할 및 상호작용에 대한 추가 정보 필요
다양한 벤치마크에서의 일반화 성능 검증 필요
CRV 시스템의 복잡성과 자원 소모에 대한 추가 분석 필요
👍