IterPref: Focal Preference Learning for Code Generation via Iterative Debugging
Created by
Haebom
Category
Empty
저자
Jie Wu, Haoling Li, Xin Zhang, Jianwen Luo, Yangyu Huang, Ruihang Chu, Yujiu Yang, Scarlett Li
개요
본 논문은 기존 코드 생성 모델의 선호도 학습 방식이 코드의 특정 오류를 명확히 지적하지 못하는 한계를 극복하기 위해, 사람의 반복적 디버깅 과정을 모방한 새로운 선호도 정렬 프레임워크인 IterPref를 제안합니다. IterPref는 오류 영역을 명시적으로 찾아내고 맞춤형 DPO 알고리즘을 통해 해당 토큰을 정렬하여 보다 정확한 오류 수정 패턴 학습을 가능하게 합니다. 이를 위해, 반복적인 수정을 통해 테스트를 통과하는 코드를 수집한 CodeFlow 데이터셋을 새롭게 제시합니다. 실험 결과, IterPref를 적용한 다양한 코드 생성 모델들이 코드 생성 성능 향상과 BigCodeBench와 같은 어려운 과제에서 성능 개선을 보였으며, 오류 발생 수 감소 효과를 확인했습니다. CodeFlow 데이터셋과 코드는 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
기존 선호도 학습 방식의 한계를 극복하고, 코드 생성 모델의 성능을 향상시키는 새로운 프레임워크 IterPref 제안.
◦
사람의 디버깅 과정을 모방하여 보다 효과적인 오류 수정 패턴 학습 가능.
◦
새로운 데이터셋 CodeFlow를 통해 더욱 효과적인 학습 데이터 제공.
◦
다양한 코드 생성 모델에 적용 가능하며, BigCodeBench와 같은 어려운 과제에서 성능 개선 확인.