Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MURPHY: Multi-Turn GRPO for Self Correcting Code Generation

Created by
  • Haebom
Category
Empty

저자

Chanakya Ekbote, Vijay Lingam, Behrooz Omidvar-Tehrani, Jun Huan, Sujay Sanghavi, Anoop Deoras, Stefano Soatto

개요

Reinforcement Learning with Verifiable Rewards (RLVR)를 활용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구가 진행되고 있다. 기존의 Group Relative Policy Optimization (GRPO) 및 변형 모델들은 추론 벤치마크에서는 효과적이나, 반복적인 의사 결정을 요구하는 에이전트 태스크에서는 어려움을 겪는다. 본 논문에서는 GRPO를 확장한 다중 턴 반사적 최적화 프레임워크인 Murphy를 제안한다. Murphy는 훈련 과정에서 반복적인 자기 수정 기능을 통합하여, 정량적 및 정성적 실행 피드백을 활용하여 모델이 여러 턴에 걸쳐 추론을 점진적으로 개선하도록 돕는다. Qwen 및 OLMo와 같은 모델을 사용한 코드 생성 벤치마크 평가 결과, Murphy는 GRPO에 비해 pass@1에서 최대 8% 상대적 성능 향상을 보였다.

시사점, 한계점

시사점:
Murphy는 반복적인 의사 결정이 필요한 에이전트 태스크에서 LLM의 추론 능력을 향상시키는 새로운 접근 방식을 제시한다.
다중 턴 반사적 최적화 프레임워크를 통해 모델의 자기 수정 능력을 강화한다.
코드 생성 벤치마크에서 GRPO 대비 유의미한 성능 향상을 보였다.
한계점:
연구가 특정 벤치마크 및 모델 제품군에 초점을 맞춰, 일반화 가능성을 추가적으로 검증해야 한다.
계산 예산에 따른 성능 변화에 대한 추가적인 분석이 필요하다.
다른 에이전트 태스크에 대한 Murphy의 효과를 추가적으로 검증해야 한다.
👍