[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ReCode: Updating Code API Knowledge with Reinforcement Learning

Created by
  • Haebom

저자

Haoze Wu, Yunzhi Yao, Wenhao Yu, Huajun Chen, Ningyu Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력이 외부 라이브러리 API의 빈번한 업데이트에 적응하는 데 어려움을 겪는다는 문제점을 제기합니다. 이는 LLM이 훈련 데이터의 오래된 API 정보에 의존하기 때문입니다. 이를 해결하기 위해, 본 논문에서는 API 변경 사항에 대한 인간 프로그래머의 적응 방식을 모방하는 새로운 프레임워크인 ReCode (rule-based Reinforcement learning for Code Update)를 제안합니다. ReCode는 약 2,000개의 데이터 항목으로 구성된 데이터셋을 사용하여 LLM이 업데이트된 정보를 기반으로 버전 마이그레이션을 수행하도록 훈련합니다. 또한 강화 학습의 보상으로 수정된 문자열 유사성 측정 기준을 도입합니다. 실험 결과, ReCode는 특히 unseen CodeUpdateArena 작업에서 동적 API 시나리오에서 LLM의 코드 생성 성능을 크게 향상시키는 것으로 나타났습니다. 특히, 지도 학습 미세 조정과 비교하여 ReCode는 LLM의 일반적인 코드 생성 능력에 미치는 영향이 적습니다. 다양한 LLM과 강화 학습 알고리즘(GRPO 및 DAPO)에 ReCode를 적용하여 일관된 성능 향상을 달성했습니다. 특히, 훈련 후 Qwen2.5-Coder-7B는 동일한 아키텍처를 가진 32B 매개변수 코드 지시어 미세 조정 모델 및 추론 모델보다 성능이 우수했습니다. 코드는 https://github.com/zjunlp/ReCode 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
LLM의 동적 API 환경에서의 코드 생성 성능을 향상시키는 효과적인 방법 제시
강화 학습 기반의 ReCode 프레임워크가 지도 학습보다 LLM의 일반적인 코드 생성 능력에 미치는 부정적 영향이 적음
다양한 LLM과 강화 학습 알고리즘에 적용 가능성 확인 및 우수한 성능 검증 (Qwen2.5-Coder-7B의 뛰어난 성능)
실제 API 업데이트에 대한 적응력 향상
한계점:
현재 2,000개의 데이터 항목으로 훈련되었다는 점에서 데이터셋 규모의 확장 필요성
다양한 API 및 프로그래밍 언어에 대한 일반화 성능에 대한 추가 연구 필요
실제 환경에서의 ReCode의 장기적인 안정성 및 유지보수에 대한 검토 필요
사용된 문자열 유사성 측정 기준의 한계 및 개선 가능성
👍