Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems

Created by
  • Haebom

저자

Hansa Meghwani, Amit Agarwal, Priyaranjan Pattnayak, Hitesh Laxmichand Patel, Srikant Panda

개요

기업 검색 시스템은 의미 불일치와 중복 용어로 인해 정확한 도메인별 정보를 검색하는 데 어려움을 겪는다. 이는 지식 관리, 고객 지원 및 검색 증강 생성 에이전트와 같은 다운스트림 애플리케이션의 성능을 저하시킬 수 있다. 본 논문은 도메인별 기업 데이터에 맞춰 확장 가능한 하드 네거티브 마이닝 프레임워크를 제안한다. 이 방법은 배포된 재순위 지정 모델을 향상시키기 위해 의미적으로 어렵지만 문맥적으로는 무관한 문서를 동적으로 선택한다. 다양한 임베딩 모델을 통합하고, 차원 축소를 수행하며, 하드 네거티브를 독창적으로 선택하여 계산 효율성과 의미 정밀도를 보장한다. 자체 기업 코퍼스(클라우드 서비스 도메인)에 대한 평가 결과, 최첨단 기준 및 다른 네거티브 샘플링 기법에 비해 MRR@3에서 15%, MRR@10에서 19%의 상당한 성능 향상을 보였다. 공개 도메인별 데이터 세트(FiQA, Climate Fever, TechQA)에 대한 추가 검증을 통해 본 방법의 일반화 가능성과 실제 애플리케이션 준비성을 확인했다.

시사점, 한계점

시사점: 도메인 특화 기업 검색 시스템의 성능을 크게 향상시키는 효율적이고 효과적인 하드 네거티브 마이닝 프레임워크를 제시한다. 다양한 도메인에서 일반화 가능성을 보여준다. MRR@3 및 MRR@10 지표에서 상당한 성능 향상을 달성한다.
한계점: 자체 기업 코퍼스를 사용한 평가 결과가 주요 결과로 제시되었으므로, 다양한 규모와 특성을 가진 다른 기업 데이터셋에 대한 추가적인 실험이 필요하다. 공개 데이터셋에서의 결과는 자체 데이터셋에 비해 성능 향상이 상대적으로 작을 수 있다. 프레임워크의 확장성에 대한 더 자세한 분석이 필요하다.
👍