Sign In

IterPref: Focal Preference Learning for Code Generation via Iterative Debugging

Created by
  • Haebom
Category
Empty

저자

Jie Wu, Haoling Li, Xin Zhang, Jianwen Luo, Yangyu Huang, Ruihang Chu, Yujiu Yang, Scarlett Li

개요

본 논문은 기존 코드 생성 모델의 선호도 학습 방식이 코드의 특정 오류를 명확히 지적하지 못하는 한계를 극복하기 위해, 사람의 반복적 디버깅 과정을 모방한 새로운 선호도 정렬 프레임워크인 IterPref를 제안합니다. IterPref는 오류 영역을 명시적으로 찾아내고 맞춤형 DPO 알고리즘을 통해 해당 토큰을 정렬하여 보다 정확한 오류 수정 패턴 학습을 가능하게 합니다. 이를 위해, 반복적인 수정을 통해 테스트를 통과하는 코드를 수집한 CodeFlow 데이터셋을 새롭게 제시합니다. 실험 결과, IterPref를 적용한 다양한 코드 생성 모델들이 코드 생성 성능 향상과 BigCodeBench와 같은 어려운 과제에서 성능 개선을 보였으며, 오류 발생 수 감소 효과를 확인했습니다. CodeFlow 데이터셋과 코드는 공개될 예정입니다.

시사점, 한계점

시사점:
기존 선호도 학습 방식의 한계를 극복하고, 코드 생성 모델의 성능을 향상시키는 새로운 프레임워크 IterPref 제안.
사람의 디버깅 과정을 모방하여 보다 효과적인 오류 수정 패턴 학습 가능.
새로운 데이터셋 CodeFlow를 통해 더욱 효과적인 학습 데이터 제공.
다양한 코드 생성 모델에 적용 가능하며, BigCodeBench와 같은 어려운 과제에서 성능 개선 확인.
오류 발생 수 감소 효과 확인.
코드 및 데이터 공개를 통해 연구의 재현성 및 확장성 확보.
한계점:
CodeFlow 데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요.
IterPref의 효과가 모든 유형의 코드 생성 문제에 일반화되는지 추가적인 연구 필요.
DPO 알고리즘의 특성에 대한 자세한 설명 및 다른 알고리즘과의 비교 분석 필요.
👍