RankPO: Preference Optimization for Job-Talent Matching
Created by
Haebom
Category
Empty
저자
Yafei Zhang, Murray Wang, Yu Wang, Xiaohui Wang
개요
본 논문은 직무 설명서(JDs)와 적합한 인재 매칭을 위한 이단계 대규모 언어 모델(LLM) 학습 프레임워크를 제안한다. 1단계에서는 대조 학습을 통해 지리적 일치 및 연구 분야 중복과 같은 실제 매칭 규칙으로 구성된 데이터셋으로 모델을 학습시킨다. 하지만 이 모델은 주로 매칭 규칙에 의해 정의된 패턴만 학습한다는 한계가 있다. 2단계에서는 직접 선호도 최적화(DPO)에서 영감을 받은 새로운 선호도 기반 미세 조정 방법인 순위 선호도 최적화(RankPO)를 도입하여 텍스트 이해를 강조하는 AI가 선별한 쌍별 선호도에 모델을 맞춘다. 실험 결과, 1단계 모델은 규칙 기반 데이터에서 높은 성능(nDCG@20 = 0.706)을 달성하지만, 텍스트 이해(AI 주석과의 일치도 = 0.46)는 부족하다는 것을 보여준다. RankPO를 사용하여 미세 조정함으로써 원래 작업에서 상대적으로 좋은 성능을 유지하면서 AI 선호도와의 일치도를 크게 향상시킨 균형 잡힌 모델을 달성한다. 코드와 데이터는 https://github.com/yflyzhang/RankPO 에서 이용 가능하다.