Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

Created by
  • Haebom

저자

Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng

개요

본 논문은 대규모 언어 모델(LLM)이 생성하는 코드의 효율성 문제를 해결하기 위해, 실행 샌드박스로부터의 경험적 성능 피드백을 기반으로 LLM이 코드를 반복적으로 개선하는 폐쇄 루프 시스템인 새로운 테스트 시간 반복적 최적화 프레임워크를 제시한다. 감독 미세 조정(SFT), 직접적 선호도 최적화(DPO), 그룹 상대 정책 최적화(GRPO) 세 가지 훈련 전략을 탐구하며, Venus 데이터셋과 APPS 벤치마크를 사용한 실험을 통해 SFT와 DPO는 효율성 향상에 빠르게 포화되는 반면, 실행 피드백을 사용하는 강화 학습(RL) 기반의 GRPO는 코드 성능을 지속적으로 최적화하여 pass@1(47%에서 62%로)과 효율성 측면에서 사람의 제출물을 능가할 가능성(31%에서 45%로)을 크게 향상시킨다는 것을 보여준다. 결론적으로, 본 연구는 테스트 시간 코드 효율성 개선의 효과를 입증하고, LLM이 코드 효율성을 스스로 개선하도록 가르치는 데 있어 RL의 힘을 보여준다.

시사점, 한계점

시사점:
실행 피드백 기반의 강화 학습(RL)을 활용한 테스트 시간 최적화 프레임워크가 LLM의 코드 효율성을 획기적으로 향상시킬 수 있음을 보여줌.
GRPO 전략이 SFT, DPO보다 지속적인 성능 향상을 가져옴을 확인.
LLM이 생성한 코드의 효율성 문제 해결에 대한 새로운 접근법 제시.
LLM의 자기 개선 능력 향상에 대한 가능성 제시.
한계점:
제안된 프레임워크의 일반성 및 다양한 프로그래밍 언어 및 작업에 대한 적용 가능성에 대한 추가 연구 필요.
실행 샌드박스의 성능 및 안정성이 전체 시스템 성능에 영향을 미칠 수 있음.
GRPO와 같은 RL 기반 방법은 계산 비용이 높을 수 있음.
Venus 데이터셋과 APPS 벤치마크 외 다른 데이터셋 및 벤치마크에 대한 추가 실험 필요.
👍