Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Reasoning LLMs to BERT: A Two-Stage Distillation Framework for Search Relevance

Created by
  • Haebom
Category
Empty

저자

Runze Xia, Yupeng Ji, Yuxi Zhou, Haodong Liu, Teng Zhang, Piji Li

개요

본 논문은 e-커머스 검색 시스템에서 쿼리-서비스 관련성 예측의 지연 시간 제약 문제를 해결하기 위해, 강력한 대형 언어 모델(LLM)의 추론 능력을 경량화된 학생 모델로 이전하는 2단계 추론 증류 프레임워크를 제안합니다. 첫 번째 단계에서는 플랫폼 지식을 주입하기 위한 도메인 적응 사전 훈련, 추론 기술을 유도하기 위한 지도 미세 조정, 신뢰할 수 있고 선호도에 맞는 추론 경로 생성을 보장하기 위한 다차원 보상 모델을 사용한 선호도 최적화를 통해 도메인 적응 교사 모델을 구축합니다. 이 교사 모델은 검색 로그에서 방대한 쿼리-서비스 쌍에 관련성 레이블과 추론 체인을 자동으로 주석을 답니다. 두 번째 단계에서는 Contrastive Reasoning Self-Distillation(CRSD)를 도입하여 표준 증류의 아키텍처 이질성 문제를 해결합니다. CRSD는 "표준" 및 "추론 증강" 입력에서 동일한 학생 모델의 동작을 교사-학생 관계로 모델링하여, 경량 모델이 추론 시 명시적인 추론 경로 없이 교사의 복잡한 의사 결정 메커니즘을 내재화할 수 있도록 합니다. Meituan 검색 광고 시스템에서 수행된 오프라인 평가 및 온라인 A/B 테스트는 제안된 프레임워크가 여러 지표에서 유의미한 개선을 달성했으며 효과와 실용적 가치를 입증했습니다.

시사점, 한계점

시사점:
LLM의 추론 능력을 활용하여 e-커머스 검색 시스템의 관련성 예측 성능을 향상시킴.
지연 시간 제약을 고려하여 경량화된 학생 모델을 사용함으로써 실제 배포 가능성을 확보함.
도메인 적응 교사 모델 구축을 통해 일반적인 LLM의 한계를 극복함.
CRSD를 통해 아키텍처 이질성 문제를 해결하고 추론 경로 없이도 효과적인 지식 전이가 가능하게 함.
실제 환경에서의 A/B 테스트를 통해 프레임워크의 실용성을 입증함.
한계점:
제안된 프레임워크의 일반화 가능성은 추가 연구가 필요함. (다른 도메인 또는 시스템에 대한 적용)
교사 모델의 구축 및 훈련에 필요한 자원(데이터, 계산 능력)에 대한 고려가 필요함.
CRSD의 성능에 영향을 미치는 하이퍼파라미터 설정에 대한 분석이 추가적으로 필요함.
오직 Meituan 검색 광고 시스템에서의 결과만 제시되었으므로, 다른 환경에서의 성능 검증이 필요함.
👍