Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng
개요
본 논문은 대규모 언어 모델(LLM)이 생성하는 코드의 효율성 문제를 해결하기 위해, 실행 샌드박스의 성능 피드백을 기반으로 LLM이 코드를 반복적으로 개선하는 폐쇄 루프 시스템을 제시합니다. 세 가지 훈련 전략(SFT, DPO, GRPO)을 비교 실험한 결과, 강화 학습 기반의 GRPO가 코드 성능을 지속적으로 향상시켜 pass@1 및 인간 제출물보다 효율적인 코드 생성 비율을 크게 높였다는 것을 보여줍니다. 이는 LLM이 코드 효율성을 자체적으로 개선하도록 학습시키는 강화학습의 효과를 입증합니다.
시사점, 한계점
•
시사점:
◦
LLM의 코드 효율성 향상을 위한 효과적인 테스트 시간 최적화 프레임워크 제시.
◦
강화 학습 기반의 GRPO 전략이 코드 효율성 향상에 탁월한 성능을 보임을 실험적으로 증명.
◦
LLM의 자기 개선 능력 향상 가능성 제시.
•
한계점:
◦
제시된 프레임워크의 일반화 성능 및 다양한 프로그래밍 언어 및 문제 유형에 대한 적용성 추가 연구 필요.
◦
실행 샌드박스의 성능 측정 방식 및 피드백 메커니즘에 대한 추가적인 개선 여지 존재.
◦
Venus 데이터셋과 APPS 벤치마크 외 다른 데이터셋 및 벤치마크에 대한 실험 결과 필요.