Reinforcement Learning with Verifiable Rewards (RLVR)를 활용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구가 진행되고 있다. 기존의 Group Relative Policy Optimization (GRPO) 및 변형 모델들은 추론 벤치마크에서는 효과적이나, 반복적인 의사 결정을 요구하는 에이전트 태스크에서는 어려움을 겪는다. 본 논문에서는 GRPO를 확장한 다중 턴 반사적 최적화 프레임워크인 Murphy를 제안한다. Murphy는 훈련 과정에서 반복적인 자기 수정 기능을 통합하여, 정량적 및 정성적 실행 피드백을 활용하여 모델이 여러 턴에 걸쳐 추론을 점진적으로 개선하도록 돕는다. Qwen 및 OLMo와 같은 모델을 사용한 코드 생성 벤치마크 평가 결과, Murphy는 GRPO에 비해 pass@1에서 최대 8% 상대적 성능 향상을 보였다.
시사점, 한계점
•
시사점:
◦
Murphy는 반복적인 의사 결정이 필요한 에이전트 태스크에서 LLM의 추론 능력을 향상시키는 새로운 접근 방식을 제시한다.
◦
다중 턴 반사적 최적화 프레임워크를 통해 모델의 자기 수정 능력을 강화한다.
◦
코드 생성 벤치마크에서 GRPO 대비 유의미한 성능 향상을 보였다.
•
한계점:
◦
연구가 특정 벤치마크 및 모델 제품군에 초점을 맞춰, 일반화 가능성을 추가적으로 검증해야 한다.