본 논문은 Python과 같은 인기 프로그래밍 언어에 비해 공개 학습 데이터가 제한적인 언어에서 정확하고 실행 가능한 코드를 생성하는 데 어려움을 극복하는 일반화 가능한 접근 방식을 제시합니다. 소규모 코드 버전의 Qwen 2.5 모델과 Group Relative Policy Optimization (GRPO)을 결합하여 명시적인 추론 단계를 통해 효과적인 코드 생성을 가능하게 합니다. Prolog을 대표적인 사용 사례로, 온라인 데이터 부족으로 인한 초기 모델의 실행 가능한 코드 생성의 어려움을 해결하고, 강화 학습 루프에 추론 기반 피드백을 직접 통합하여 논리적으로 일관되고 구문적으로 정확한 코드 생성에 성공하였습니다. 수학적 논리 문제 벤치마크를 이용한 실험 평가 결과, 추론 품질, 코드 정확성, 논리적 정확성이 크게 향상되었음을 보여주며, 광범위한 프로그래밍 언어에 적용 가능성을 시사합니다.