본 논문은 기존 코드 생성 모델의 선호도 학습 방식이 코드의 특정 오류를 명확히 지적하지 못하는 한계를 극복하기 위해, 사람의 반복적 디버깅 과정을 모방한 새로운 선호도 정렬 프레임워크인 IterPref를 제안합니다. IterPref는 오류 영역을 명확히 찾아내고, 맞춤형 DPO 알고리즘을 통해 해당 토큰들을 정렬함으로써 보다 정확한 오류 수정 패턴 학습을 가능하게 합니다. 또한, IterPref의 성능을 평가하기 위해 반복적인 수정을 통해 테스트를 통과하도록 코드를 개선한 CodeFlow 데이터셋을 소개합니다. 실험 결과, 다양한 코드 생성 모델에 IterPref를 적용했을 때 코드 생성 성능이 크게 향상되었으며, BigCodeBench와 같은 어려운 과제에서도 성능 향상을 보였습니다. 특히, IterPref를 통해 생성된 코드의 오류 발생률이 감소하는 것을 확인했습니다. 본 논문에서 사용된 코드와 데이터는 공개될 예정입니다.