Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ReCode: Updating Code API Knowledge with Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Haoze Wu, Yunzhi Yao, Wenhao Yu, Ningyu Zhang

개요

대규모 언어 모델(LLM)은 코드 생성 능력이 뛰어나지만, 외부 라이브러리 API의 빈번한 업데이트에 적응하는 데 어려움을 겪습니다. 훈련 데이터의 오래된 API 지식에 의존하기 때문입니다. 본 논문에서는 API 변경에 대한 인간 프로그래머의 적응을 모방하는 새로운 프레임워크인 ReCode(rule-based Reinforcement learning for Code Update)를 제안합니다. 약 2,000개의 데이터 항목으로 구성된 데이터 세트를 사용하여 LLM을 훈련시켜 업데이트된 정보를 기반으로 버전 마이그레이션을 수행하도록 합니다. 또한 코드 평가를 위한 수정된 문자열 유사성 메트릭을 강화 학습에 대한 보상으로 도입했습니다. ReCode는 동적 API 시나리오에서 LLM의 코드 생성 성능을 크게 향상시키며, 특히 CodeUpdateArena task에서 두드러집니다. ReCode는 지도 방식 미세 조정에 비해 LLM의 일반적인 코드 생성 능력에 미치는 영향이 적습니다. Qwen2.5-Coder-7B는 ReCode 훈련 후 32B 매개변수 코드 지침 튜닝 모델 및 동일 아키텍처의 추론 모델보다 성능이 뛰어났습니다.

시사점, 한계점

시사점:
ReCode 프레임워크는 LLM의 동적 API 시나리오에서 코드 생성 성능을 향상시켰습니다.
지도 방식 미세 조정보다 LLM의 일반적인 코드 생성 능력에 미치는 영향이 적습니다.
다양한 LLM 및 강화 학습 알고리즘에서 일관된 개선을 보였습니다.
훈련된 Qwen2.5-Coder-7B 모델은 더 큰 모델보다 성능이 뛰어났습니다.
한계점:
구체적인 한계점은 논문에 명시되지 않았습니다.
👍