본 논문은 기존의 경직된 키워드 매칭 방식의 채용 시스템(ATS)의 한계를 극복하기 위해, 소형 언어 모델(<600M parameters)을 GRPO(Guided Reinforcement Policy Optimization)를 활용하여 사용자 정의 보상 함수에 따라 미세 조정하는 2단계 프로세스를 제안합니다. 먼저 Supervised Fine-Tuning(SFT)을 통해 기본 모델을 구축하고, 이 모델을 새로운 다중 구성 요소 보상 함수를 통해 GRPO를 사용한 강화 학습으로 최적화합니다. 특히, 과도한 패널티로 인한 보상 해킹 문제를 해결하기 위해 보상 함수를 반복적으로 개선하고 하이퍼파라미터를 조정하여 안정적인 "gentle polishing process"를 구현했습니다. 최종적으로 91%의 정확도, 'SELECTED' 클래스에 대한 0.85의 재현율, 그리고 1.0의 정밀도를 달성하여 실제 채용 평가에 효과적인 모델임을 입증했습니다.