본 논문은 기존 코드 생성 대규모 언어 모델(LLM)의 성능 향상을 위해, 단순한 성공률 비교가 아닌, 사람의 반복적인 디버깅 과정을 모방하는 새로운 선호도 정렬 프레임워크인 Target-DPO를 제안합니다. Target-DPO는 오류 영역을 명확히 식별하고, 맞춤형 DPO 알고리즘을 통해 해당 토큰을 정렬하여 더욱 세밀한 오류 수정 패턴 학습을 가능하게 합니다. 이를 위해, 코드가 반복적으로 수정되면서 오류 수정 과정이 기록된 CodeFlow 데이터셋을 새롭게 제시합니다. 실험 결과, 다양한 코드 LLM에 Target-DPO를 적용했을 때 코드 생성 성능이 크게 향상되었으며, BigCodeBench와 같은 어려운 과제에서도 성능 개선을 보였습니다. 특히, Target-DPO는 오류 발생률을 감소시키는 효과를 보였습니다. 코드, 모델 및 데이터셋은 GitHub에서 공개됩니다.