Sign In

Scheduling Your LLM Reinforcement Learning with Reasoning Trees

Created by
  • Haebom
Category
Empty

저자

Hong Wang, Zhezheng Hao, Jian Luo, Chenxing Wei, Yao Shu, Lei Liu, Qiang Lin, Hande Dong, Jiawei Chen

개요

본 논문은 검증 가능한 보상(RLVR)을 사용하는 강화 학습으로 대규모 언어 모델(LLM)을 최적화하는 과정을 '추론 트리'를 점진적으로 편집하는 것으로 개념화합니다. 각 노드(토큰)를 탐색하고 각 노드에서 모델의 정책을 동적으로 수정하는 과정을 포함합니다. 데이터 스케줄링과 결합하면 데이터 효율성과 정확성을 더욱 향상시킬 수 있습니다. 기존 RLVR 데이터 스케줄링 방법은 쿼리를 순위를 매기기 위해 경로 기반 메트릭에 의존하지만, 이러한 쿼리의 추론 트리 구조를 간과합니다. 본 논문에서는 쿼리의 추론 트리 구조를 기반으로 학습 난이도를 측정하는 새로운 메트릭인 추론 점수(r-score)를 제시합니다. r-score를 기반으로, 구조적으로 단순한 쿼리(높은 r-score)에서 복잡한 쿼리(낮은 r-score)로 진행되는 커리큘럼을 구성하는 스케줄링 알고리즘인 Reasoning Tree Schedule (Re-Schedule)을 제안합니다. 6개의 수학적 추론 벤치마크 실험 결과, Re-Schedule은 평균 정확도를 유의미하게 향상시켰으며, 최대 3.2%의 향상을 보였습니다.

시사점, 한계점

시사점:
RLVR을 사용한 LLM 최적화에서 추론 트리 구조에 대한 이해를 바탕으로 한 데이터 스케줄링의 효과를 입증했습니다.
Re-Schedule 알고리즘을 통해 수학적 추론 벤치마크에서 상당한 정확도 향상을 달성했습니다.
추론 트리 구조를 기반으로 한 데이터 스케줄링이 RLVR의 성능 향상에 기여할 수 있음을 보여주었습니다.
한계점:
6개의 수학적 추론 벤치마크에 대한 실험만 진행되어 일반화 가능성에 대한 추가 연구가 필요합니다.
Re-Schedule의 최적 파라미터 설정에 대한 자세한 분석이 부족할 수 있습니다.
다양한 모델 아키텍처 및 데이터셋에 대한 Re-Schedule의 효과를 추가적으로 검증해야 합니다.
👍