Scheduling Your LLM Reinforcement Learning with Reasoning Trees
Created by
Haebom
Category
Empty
저자
Hong Wang, Zhezheng Hao, Jian Luo, Chenxing Wei, Yao Shu, Lei Liu, Qiang Lin, Hande Dong, Jiawei Chen
개요
본 논문은 검증 가능한 보상(RLVR)을 사용하는 강화 학습으로 대규모 언어 모델(LLM)을 최적화하는 과정을 '추론 트리'를 점진적으로 편집하는 것으로 개념화합니다. 각 노드(토큰)를 탐색하고 각 노드에서 모델의 정책을 동적으로 수정하는 과정을 포함합니다. 데이터 스케줄링과 결합하면 데이터 효율성과 정확성을 더욱 향상시킬 수 있습니다. 기존 RLVR 데이터 스케줄링 방법은 쿼리를 순위를 매기기 위해 경로 기반 메트릭에 의존하지만, 이러한 쿼리의 추론 트리 구조를 간과합니다. 본 논문에서는 쿼리의 추론 트리 구조를 기반으로 학습 난이도를 측정하는 새로운 메트릭인 추론 점수(r-score)를 제시합니다. r-score를 기반으로, 구조적으로 단순한 쿼리(높은 r-score)에서 복잡한 쿼리(낮은 r-score)로 진행되는 커리큘럼을 구성하는 스케줄링 알고리즘인 Reasoning Tree Schedule (Re-Schedule)을 제안합니다. 6개의 수학적 추론 벤치마크 실험 결과, Re-Schedule은 평균 정확도를 유의미하게 향상시켰으며, 최대 3.2%의 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
RLVR을 사용한 LLM 최적화에서 추론 트리 구조에 대한 이해를 바탕으로 한 데이터 스케줄링의 효과를 입증했습니다.
◦
Re-Schedule 알고리즘을 통해 수학적 추론 벤치마크에서 상당한 정확도 향상을 달성했습니다.
◦
추론 트리 구조를 기반으로 한 데이터 스케줄링이 RLVR의 성능 향상에 기여할 수 있음을 보여주었습니다.
•
한계점:
◦
6개의 수학적 추론 벤치마크에 대한 실험만 진행되어 일반화 가능성에 대한 추가 연구가 필요합니다.
◦
Re-Schedule의 최적 파라미터 설정에 대한 자세한 분석이 부족할 수 있습니다.
◦
다양한 모델 아키텍처 및 데이터셋에 대한 Re-Schedule의 효과를 추가적으로 검증해야 합니다.