Multi-Turn Code Generation Through Single-Step Rewards
Created by
Haebom
저자
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury
개요
본 논문은 다회차 실행 피드백으로부터 코드를 생성하는 문제를 다룹니다. 기존 방법들은 피드백 없이 코드를 생성하거나, 다회차 보상을 최적화하기 위해 복잡한 계층적 강화 학습을 사용합니다. 본 논문에서는 단일 단계 보상만을 사용하여 다회차 코드 생성 문제를 해결하는 단순하면서도 확장 가능한 접근 방식인 $\mu$Code를 제안합니다. 핵심 아이디어는 코드 생성이 단일 단계에서 중간 코드 상태로부터 올바른 코드를 복구할 수 있는 단일 단계 복구 가능 MDP(Markov Decision Process)라는 것입니다. $\mu$Code는 다회차 실행 피드백을 조건으로 코드 솔루션을 제공하는 생성기와 새로 생성된 코드를 평가하는 검증기를 반복적으로 학습합니다. 실험 결과, 제안된 방법이 최첨단 기준 모델보다 상당한 성능 향상을 달성함을 보여줍니다. 또한 보상 모델과 정책의 설계 선택에 대한 분석을 제공하고, 실행 피드백을 활용하는 $\mu$Code의 효과를 보여줍니다. 코드는 https://github.com/portal-cornell/muCode 에서 확인할 수 있습니다.