CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs
Created by
Haebom
Category
Empty
저자
Yongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang
💡 개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 효율적인 커리큘럼 학습 방법인 CurES를 제안합니다. 기존 방법론의 한계점을 극복하기 위해 강화 학습 그래디언트 분석에 기반하여 프롬프트 선택 및 샘플링 할당의 중요성을 이론적으로 규명했습니다. CurES는 제안된 이론을 바탕으로 베이지안 사후 추정을 활용하여 계산 비용을 최소화하면서 학습 효율을 높여, 여러 수학 추론 벤치마크에서 기존 방법론 대비 우수한 성능을 보였습니다.
🔑 시사점 및 한계
•
LLM 추론 학습 시 프롬프트 선택 및 샘플링 할당 전략이 모델 수렴 속도와 안정성에 큰 영향을 미칩니다.
•
CurES는 이론적 분석을 바탕으로 효율적인 프롬프트 구성 및 샘플링 전략을 제공하여 LLM 학습 효율을 크게 향상시킬 수 있습니다.
•
본 연구의 이론적 분석이 복잡한 LLM 학습 환경에서 얼마나 잘 일반화되는지에 대한 추가적인 검증이 필요하며, 다양한 종류의 추론 작업에 대한 확장성 또한 탐구될 필요가 있습니다.