Sign In

Reasoning Curriculum: Bootstrapping Broad LLM Reasoning from Math

Created by
  • Haebom
Category
Empty

저자

Bo Pang, Deqian Kong, Silvio Savarese, Caiming Xiong, Yingbo Zhou

개요

강화 학습(RL)은 대규모 언어 모델(LLM)에서 강력한 추론 능력을 이끌어낼 수 있지만, 대부분의 공개적인 노력은 수학 및 코드에 집중되어 있습니다. 본 논문에서는 수학과 같은 사전 훈련에 부합하는 도메인에서 먼저 추론 기술을 이끌어낸 다음, 공동 RL을 통해 이러한 기술을 다른 도메인으로 적응시키고 개선하는 간단한 2단계 커리큘럼인 Reasoning Curriculum을 제안합니다. 1단계에서는 검증 가능한 보상을 통해 짧은 콜드 스타트 후 수학 전용 RL을 수행하여 추론 기술을 개발합니다. 2단계에서는 혼합 도메인 데이터에 대한 공동 RL을 실행하여 이러한 기술을 이전하고 통합합니다. 이 커리큘럼은 최소한의 요건을 가지며 백본에 구애받지 않으며, 표준 검증 가능성 검사 외에는 특수한 보상 모델이 필요하지 않습니다. Qwen3-4B 및 Llama-3.1-8B에 대한 다중 도메인 스위트에서 평가한 결과, Reasoning Curriculum은 일관된 성능 향상을 보였습니다. 제거 실험과 인지 기술 분석을 통해 두 단계 모두 필요하며, 수학 우선 유도가 복잡한 문제를 해결하는 데 중요한 인지 행동을 증가시킨다는 것을 알 수 있습니다. Reasoning Curriculum은 일반적인 추론을 위한 간결하고 쉽게 적용할 수 있는 방법을 제공합니다.

시사점, 한계점

시사점:
간단한 2단계 커리큘럼을 통해 LLM의 추론 능력을 향상시킬 수 있음.
사전 훈련에 부합하는 도메인(예: 수학)에서의 초기 학습이 중요함.
특수한 보상 모델 없이 표준 검증 가능성 검사만으로 효과를 얻을 수 있음.
Qwen3-4B 및 Llama-3.1-8B 모델에서 일관된 성능 향상 확인.
한계점:
제안된 방법의 효과는 특정 모델(Qwen3-4B, Llama-3.1-8B)에 국한될 수 있음.
다양한 도메인에서의 일반화 가능성을 추가적으로 검증해야 함.
각 단계별 최적화된 하이퍼파라미터 설정에 대한 연구가 필요함.
인지 기술 분석의 구체적인 방법론과 결과에 대한 추가 설명이 필요함.
👍