Learning to Better Search with Language Models via Guided Reinforced Self-Training
Created by
Haebom
Category
Empty
저자
Seungyong Moon, Bumsoo Park, Hyun Oh Song
개요
언어 모델이 복잡한 추론 문제에서 어려움을 겪는 문제를 해결하기 위해, 추론 과정에서의 효과적인 탐색 능력을 향상시키는 Guided-ReST (Guided Reinforced Self-Training) 알고리즘을 제안합니다. 이 알고리즘은 최적의 해답을 랜드마크로 활용하여 모델의 탐색 과정을 안내하며, 이를 통해 고품질의 탐색 과정을 생성하고 모델의 검색 전략을 개선합니다. 특히 산술 추론 및 코드 자가 복구 문제에서 성능 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
최적의 해답을 활용한 탐색 과정 안내를 통해 언어 모델의 추론 능력 향상 가능성을 제시함.