Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RankPO: Preference Optimization for Job-Talent Matching

Created by
  • Haebom
Category
Empty

저자

Yafei Zhang, Murray Wang, Yu Wang, Xiaohui Wang

개요

본 논문은 직무 설명서(JDs)와 적합한 인재 매칭을 위한 이단계 대규모 언어 모델(LLM) 학습 프레임워크를 제안한다. 1단계에서는 대조 학습을 통해 지리적 일치 및 연구 분야 중복과 같은 실제 매칭 규칙으로 구성된 데이터셋으로 모델을 학습시킨다. 하지만 이 모델은 주로 매칭 규칙에 의해 정의된 패턴만 학습한다는 한계가 있다. 2단계에서는 직접 선호도 최적화(DPO)에서 영감을 받은 새로운 선호도 기반 미세 조정 방법인 순위 선호도 최적화(RankPO)를 도입하여 텍스트 이해를 강조하는 AI가 선별한 쌍별 선호도에 모델을 맞춘다. 실험 결과, 1단계 모델은 규칙 기반 데이터에서 높은 성능(nDCG@20 = 0.706)을 달성하지만, 텍스트 이해(AI 주석과의 일치도 = 0.46)는 부족하다는 것을 보여준다. RankPO를 사용하여 미세 조정함으로써 원래 작업에서 상대적으로 좋은 성능을 유지하면서 AI 선호도와의 일치도를 크게 향상시킨 균형 잡힌 모델을 달성한다. 코드와 데이터는 https://github.com/yflyzhang/RankPO 에서 이용 가능하다.

시사점, 한계점

시사점:
이단계 학습 프레임워크를 통해 규칙 기반 매칭과 텍스트 이해를 모두 고려한 효과적인 JD-인재 매칭 모델을 제시한다.
RankPO라는 새로운 선호도 기반 미세 조정 방법을 제안하여 LLM의 텍스트 이해 능력을 향상시킨다.
실제 매칭 규칙과 AI 선호도 간의 균형을 맞춘 모델을 개발하는 데 성공한다.
한계점:
1단계 모델은 규칙 기반 데이터에 과적합될 가능성이 있다.
AI가 선별한 쌍별 선호도의 질에 따라 모델 성능이 영향을 받을 수 있다.
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요하다.
👍