Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning
Created by
Haebom
저자
Shenao Zhang, Yaqing Wang, Yinxiao Liu, Tianqi Liu, Peter Grabowski, Eugene Ie, Zhaoran Wang, Yunxuan Li
개요
강화 학습(RL)을 통해 훈련된 대규모 언어 모델(LLM)은 되짚어보기 및 오류 수정과 같은 강력한 추론 능력과 새로운 반성적 행동을 보여주었습니다. 하지만 기존의 마르코프 RL은 최적의 결정적 정책을 학습하기 위해 탐색을 훈련 단계로 제한하며, 현재 상태를 통해서만 이전 맥락에 의존합니다. 따라서 마르코프 RL 훈련 중에 반성적 추론이 나타날지, 혹은 테스트 시에 유익한 이유가 무엇인지 불분명합니다. 이를 해결하기 위해 마르코프 의사결정 과정에 대한 사후 분포 하에서 기대 수익을 명시적으로 최적화하는 베이즈 적응형 RL 프레임워크 내에서 반성적 탐색을 재구성했습니다. 이 베이지안 공식은 믿음 업데이트를 통해 보상을 극대화하는 활용과 정보 수집 탐색 모두를 본질적으로 장려합니다. 결과 알고리즘인 BARL은 관찰된 결과를 기반으로 전략을 조합하고 전환하도록 LLM에 지시하여 모델이 언제 어떻게 반성적으로 탐색해야 하는지에 대한 원칙적인 안내를 제공합니다. 합성 및 수학적 추론 작업에 대한 실험 결과는 BARL이 테스트 시 표준 마르코프 RL 접근 방식보다 우수한 성능을 보이며, 향상된 탐색 효율성으로 우수한 토큰 효율성을 달성함을 보여줍니다. 코드는 https://github.com/shenao-zhang/BARL 에서 이용 가능합니다.
시사점: 베이즈 적응형 RL 프레임워크를 활용하여 LLM의 반성적 탐색을 효과적으로 개선하고, 테스트 시간 성능을 향상시킬 수 있음을 보여줍니다. 향상된 토큰 효율성을 통해 효율적인 학습이 가능함을 시사합니다.
•
한계점: 현재 제시된 실험 결과는 합성 및 수학적 추론 작업에 국한되어 있으며, 더욱 다양하고 복잡한 작업에 대한 일반화 가능성은 추가 연구가 필요합니다. BARL 알고리즘의 복잡성과 계산 비용에 대한 분석이 부족합니다. 실제 응용 분야에서의 효율성 및 확장성에 대한 추가적인 검증이 필요합니다.