Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ReCode: Updating Code API Knowledge with Reinforcement Learning

Created by
  • Haebom

저자

Haoze Wu, Yunzhi Yao, Wenhao Yu, Huajun Chen, Ningyu Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력이 외부 라이브러리 API의 빈번한 업데이트에 적응하지 못하는 한계를 해결하기 위해 ReCode 프레임워크를 제안합니다. ReCode는 인간 프로그래머의 API 변경 적응 방식을 모방하여, 약 2,000개의 데이터를 이용해 LLM이 버전 마이그레이션을 수행하도록 학습시키고, 수정된 문자열 유사도 측정법을 강화 학습의 보상으로 사용합니다. 실험 결과, ReCode는 특히 미지의 CodeUpdateArena 작업에서 LLM의 코드 생성 성능을 크게 향상시키며, 지도 학습 파인튜닝에 비해 일반적인 코드 생성 능력에 미치는 영향이 적다는 것을 보여줍니다. 다양한 LLM과 강화 학습 알고리즘(GRPO 및 DAPO)에 ReCode를 적용하여 일관된 성능 향상을 달성했으며, Qwen2.5-Coder-7B는 32B 매개변수 코드 지시 튜닝 모델 및 동일한 아키텍처의 추론 모델보다 우수한 성능을 보였습니다. 소스 코드는 깃허브에서 공개됩니다.

시사점, 한계점

시사점:
LLM의 API 업데이트 적응 문제 해결을 위한 효과적인 프레임워크(ReCode) 제시
강화 학습 기반 접근 방식을 통해 LLM의 코드 생성 성능 향상
지도 학습 파인튜닝 대비 일반 코드 생성 능력 저하 최소화
다양한 LLM 및 강화 학습 알고리즘에서 일관된 성능 향상 확인
상대적으로 작은 모델(Qwen2.5-Coder-7B)이 대규모 모델을 능가하는 성능 달성
한계점:
ReCode의 성능 향상이 특정 데이터셋(CodeUpdateArena)에 얼마나 일반화될 수 있는지 추가적인 연구 필요
2,000개의 데이터셋 규모가 충분한지에 대한 검토 필요. 더 큰 규모의 데이터셋을 사용했을 때의 성능 변화 분석 필요
다양한 API 및 프로그래밍 언어에 대한 일반화 가능성에 대한 추가적인 실험 필요
👍