StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

작성자

Haebom

카테고리

Empty

저자

Jiajun Li, Yu Ding, Shisi Guan, Ran Hou, Wanyuan Wang

💡 개요

본 논문은 최적화 모델링 과정의 계층적 특성과 초기 오류의 전파 문제를 해결하기 위해 MCTS(Monte Carlo Tree Search)와 테스트 시간 강화학습을 결합한 StarOR 프레임워크를 제안합니다. StarOR은 모델링 과정을 4단계로 분해하고, 각 단계에서 LoRA 어댑터를 GRPO(Generalized Proximal Policy Optimization)로 업데이트하여 검색 시간 탐색을 인스턴스별 정책 개선으로 전환합니다. 실험 결과, StarOR은 4B 모델로도 기존 방법론과 최첨단 LLM을 능가하는 최신 성능을 달성했습니다.

🔑 시사점 및 한계

•

StarOR은 계층적 최적화 모델링에서 발생하는 오류 전파 문제를 효과적으로 완화하고, 탐색 및 적응을 동시에 수행하는 새로운 접근 방식을 제시합니다.

•

MCTS를 통한 탐색과 테스트 시간 강화학습의 결합은 제한된 데이터 환경에서도 인스턴스별 정책을 효과적으로 미세 조정하여 성능을 향상시킬 수 있습니다.

•

정답 라벨 없이도 중간 결정에 대한 미세한 피드백을 제공하는 비지도 다면 보상 시스템은 실제 최적화 모델링 적용에 유용합니다.

•

아직 탐색 공간의 크기나 복잡성이 매우 높은 문제에 대한 효율성이나, 다양한 유형의 최적화 문제에 대한 일반화 성능에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage