Mingzhe Du, Luu Anh Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng
개요
본 논문은 대규모 언어 모델(LLM)이 기능적으로 정확한 코드를 생성하지만 코드 효율성이 부족하다는 문제를 해결하기 위해, 실행 샌드박스로부터의 경험적 성능 피드백을 기반으로 LLM이 코드를 반복적으로 개선하는 폐쇄 루프 시스템을 사용하는 새로운 테스트 시간 반복 최적화 프레임워크를 제시합니다. 지도 미세 조정(SFT), 직접 선호도 최적화(DPO), 그룹 상대 정책 최적화(GRPO) 세 가지 훈련 전략을 탐구하여, Venus 데이터셋과 APPS 벤치마크에서 실험을 수행했습니다. 그 결과 SFT와 DPO는 효율성 향상에 빠르게 포화되는 반면, 실행 피드백을 사용하는 강화 학습(RL) 기반 GRPO는 코드 성능을 지속적으로 최적화하여 pass@1 (47%에서 62%로)과 효율성 측면에서 사람이 제출한 코드보다 우수할 가능성 (31%에서 45%로)을 크게 향상시켰습니다. 본 연구는 테스트 시간 코드 효율성 개선의 효과를 보여주고, LLM이 코드 효율성을 실제로 자가 개선하도록 가르치는 데 RL의 강력함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
실행 피드백을 활용한 강화학습(RL) 기반의 테스트 시간 최적화가 LLM의 코드 효율성을 획기적으로 향상시킬 수 있음을 보여줌.
◦
GRPO를 통해 pass@1 및 인간 수준 이상의 효율성 달성 가능성을 상당히 높일 수 있음.
◦
LLM의 자가 개선 능력 향상에 RL의 효용성을 실증적으로 제시.
•
한계점:
◦
제시된 프레임워크의 일반화 성능 및 다양한 프로그래밍 언어 및 문제 유형에 대한 적용 가능성에 대한 추가 연구 필요.