Precise Zero-Shot Dense Retrieval without Relevance Labels
논문 개요 논문명: Precise Zero-Shot Dense Retrieval without Relevance Labels 링크 : https://arxiv.org/pdf/2212.10496 출간일 : 2022.12 출간 학회 : - 저자 : Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan 소속 : Carnegie Mellon University, University of Waterloo 인용 수 : 130 코드 : https://python.langchain.com/v0.1/docs/use_cases/query_analysis/techniques/hyde/ (비공식 코드) Abstract dense retrieval이 다양한 작업과 언어에서 효과적이고 효율적인 것으로 나타났지만, relevance label이 없는 상황에서 효과적인 fully zero-shot dense retrieval system을 만드는 것은 어려움 Hypothetical Document Embeddings (HyDE) 쿼리가 주어졌을 때, instruction-following language model(e.g. InstructGPT)가 hypothetical 문서를 생성하도록 함 문서는 relevance pattern을 포착하지만 비현실적이고 틀린 디테일을 가질 수 있음 supervised contrastively learned encoder(e.g. Contriever)가 문서를 임베딩, 벡터 유사도를 기반으로 하여 유사한 실제 문서를 retrieve 생성된 문서를 실제 코퍼스와 연결시키며, 인코더(contriever)의 dense bottleneck 현상이 부정확한 세부 사항을 필터링함 실험 결과, HyDE는 최신 unsupervised dense retriever인 Contriever의 성능 크게 능가, 다양한 작업(예: 웹 검색, QA, 사실 확인)과 언어(예: 스와힐리어, 한국어, 일본어)에서 fine-tuned된 retriever와 비교할 만한 강력한 성능을 보여줌 Introduction 기존 방법 Dense retrieval: 시멘틱 임베딩 유사도로 문서 검색 supervised dense retrieval model 성능 개선 방법 제시: negative mining, distillation, task-specific pre-training