본 논문은 선호도 기반 강화학습(PbRL)의 한계점인 세그먼트의 구분 불가능성 문제를 해결하기 위해, 기술 메커니즘을 통합한 새로운 알고리즘인 Skill-Enhanced Preference Optimization Algorithm (S-EPOA)을 제안한다. S-EPOA는 우선 비지도 사전 학습을 통해 유용한 기술들을 학습하고, 학습된 기술 공간에서 정보 이득과 구분 가능성을 균형 있게 고려하는 새로운 질의 선택 메커니즘을 제시한다. 로봇 조작 및 이동과 같은 다양한 작업에 대한 실험 결과, S-EPOA는 기존 PbRL 방법보다 강건성과 학습 효율 측면에서 뛰어난 성능을 보임을 보여준다. 이는 기술 기반 학습이 세그먼트 구분 불가능성 문제를 극복하는 데 효과적임을 강조한다.