Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs
Created by
Haebom
Category
Empty
저자
Marina Sakharova, Abhinav Anand, Mira Mezini
개요
본 논문은 강화 학습과 직접 선호도 최적화를 이용한 코드 생성 대규모 언어 모델(LLM)의 미세 조정을 연구합니다. 기호 실행 기법을 활용하여 보상 모델의 학습 데이터를 개선함으로써 더욱 포괄적이고 객관적인 데이터를 확보합니다. 이를 통해 생성된 코드의 질을 더욱 정확하게 평가하는 보상 모델을 개발하고, 해당 보상 모델의 피드백을 통해 훈련된 코드 생성 LLM이 CodeRL 벤치마크와 유사한 성능을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
기호 실행 기법을 활용하여 코드 품질 평가를 위한 더욱 정교한 보상 모델 학습이 가능함을 보여줌.