본 논문은 e-커머스 검색 시스템에서 쿼리-서비스 관련성 예측의 지연 시간 제약 문제를 해결하기 위해, 강력한 대형 언어 모델(LLM)의 추론 능력을 경량화된 학생 모델로 이전하는 2단계 추론 증류 프레임워크를 제안합니다. 첫 번째 단계에서는 플랫폼 지식을 주입하기 위한 도메인 적응 사전 훈련, 추론 기술을 유도하기 위한 지도 미세 조정, 신뢰할 수 있고 선호도에 맞는 추론 경로 생성을 보장하기 위한 다차원 보상 모델을 사용한 선호도 최적화를 통해 도메인 적응 교사 모델을 구축합니다. 이 교사 모델은 검색 로그에서 방대한 쿼리-서비스 쌍에 관련성 레이블과 추론 체인을 자동으로 주석을 답니다. 두 번째 단계에서는 Contrastive Reasoning Self-Distillation(CRSD)를 도입하여 표준 증류의 아키텍처 이질성 문제를 해결합니다. CRSD는 "표준" 및 "추론 증강" 입력에서 동일한 학생 모델의 동작을 교사-학생 관계로 모델링하여, 경량 모델이 추론 시 명시적인 추론 경로 없이 교사의 복잡한 의사 결정 메커니즘을 내재화할 수 있도록 합니다. Meituan 검색 광고 시스템에서 수행된 오프라인 평가 및 온라인 A/B 테스트는 제안된 프레임워크가 여러 지표에서 유의미한 개선을 달성했으며 효과와 실용적 가치를 입증했습니다.