Share
Sign In
Lighthouse LLM
Precise Zero-Shot Dense Retrieval without Relevance Labels
E
Eunyoung Lee
👍
논문 개요
논문명: Precise Zero-Shot Dense Retrieval without Relevance Labels
출간일 : 2022.12
출간 학회 : -
저자 : Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan
소속 : Carnegie Mellon University, University of Waterloo
인용 수 : 130
Abstract
dense retrieval이 다양한 작업과 언어에서 효과적이고 효율적인 것으로 나타났지만, relevance label이 없는 상황에서 효과적인 fully zero-shot dense retrieval system을 만드는 것은 어려움
Hypothetical Document Embeddings (HyDE)
1.
쿼리가 주어졌을 때, instruction-following language model(e.g. InstructGPT)가 hypothetical 문서를 생성하도록 함
문서는 relevance pattern을 포착하지만 비현실적이고 틀린 디테일을 가질 수 있음
2.
supervised contrastively learned encoder(e.g. Contriever)가 문서를 임베딩, 벡터 유사도를 기반으로 하여 유사한 실제 문서를 retrieve
생성된 문서를 실제 코퍼스와 연결시키며, 인코더(contriever)의 dense bottleneck 현상이 부정확한 세부 사항을 필터링함
실험 결과, HyDE는 최신 unsupervised dense retriever인 Contriever의 성능 크게 능가, 다양한 작업(예: 웹 검색, QA, 사실 확인)과 언어(예: 스와힐리어, 한국어, 일본어)에서 fine-tuned된 retriever와 비교할 만한 강력한 성능을 보여줌
Introduction
기존 방법
Dense retrieval: 시멘틱 임베딩 유사도로 문서 검색
supervised dense retrieval model 성능 개선 방법 제시: negative mining, distillation, task-specific pre-training
alternative 전이 학습 설정: dense retriever를 높은 리소스 데이터셋에 학습하고 새로운 태스크 쿼리로 평가 (예: MS-MARCO)
논문 제시
목표: fully zero-shot dense retrieval system, no relevance supervision, work out-of-box, generalize across tasks
self-supervised representation learning method 사용
LLM을 추가로 학습하여 다양한 처음 보는 지시에 대해 zero-shot 일반화하여 지시를 따를 수 있도록 함
HyDE
dense retrieval을 두 가지 태스크로 분해
instruction-following LM을 통한 생성 태스크
contrastive 인코더를 통한 문서-문서 유사도 태스크
HyDE 단계
1.
쿼리를 생성 모델에 주고 “질문에 대답하는 문서를 쓰도록” 지시함 (예: hypothetical document)
생성 프로세스가 예시를 통해 “연관도”를 잡아내기를 기대함
2.
비지도 contrastive 인코더로 이 문서를 임베딩 벡터로 인코딩
인코더의 dense bottleneck이 lossy compressor(손실 압축기, 일부 데이터를 손실하면서 압축하는 방법)로 작동하여 환각성 세부 정보가 임베딩으로부터 필터링되길 기대함
3.
이 벡터를 코퍼스 임베딩에 대해 검색하여 가장 유사한 실제 문서가 검색됨
retrieval: contrastive training에서 inner-product로 계산
HyDE 특징
태스크 분해를 통해 쿼리-문서 유사도 점수는 더이상 명시적으로 모델링되거나 계산되지 않고, 두 가지의 NLU와 NLG 태스크로 cast 됨
HyDE appears unsupervised: 모델 학습 필요없으며 backbone LLM의 instruction learning에 supervision signal(지시)이 사용될 뿐
Instruct-GPT와 Contriever를 backbone 모델로 사용하여 web search, question answering, fact verification의 태스크에서 스와힐리어, 한국어, 일본어에 대해 좋은 성능을 보임
Related Works
Instructions-Following Language Models
지시와 그 실행으로 구성된 데이터로 훈련된 LLM은 파인튜닝과 강화학습을 통해 새로운 지시로 새로운 작업을 수행하는 데 zero-shot generalization할 수 있음
Zero-shot Dense Retrieval
MS-MARCO와 같은 richly supervised corpus and query collection이 있지만, 좀 더 현실적인 환경과 테스트 코퍼스들에 대한 오버 엔지니어링을 방지하기 위해 relevance label 없이 효과적인 dense retrieval system 만들기
Methodology
Preliminaries
쿼리 q와 문서 d가 주어졌을 때, 두개의 인코더 함수인 $enc_q$와 $enc_d$를 사용하여 d 차원의 벡터인 $v_q$와 $v_d$로 매핑을 하고, 유사도 측정을 위해 내적을 사용
유사성 측정 공식
sim(q, d) = ⟨encq(q), encd(d)⟩ = ⟨vq, vd⟩
쿼리 세트 $Q_i$, 문서 세트 $D_i$, relevance judgement $r_{ij}$에 접근 전혀 없이 매핑 함수 $enc_q$와 $enc_d$를 정의해야 함
제로샷 dense retrieval의 어려움:
두 개의 임베딩 함수(쿼리와 문서 각각에 대해)를 동일한 임베딩 공간으로 학습해야 하며, 이 공간에서 내적이 관련성을 포착해야 함
제로샷 환경에서는 사전 학습된 모델로 새로운 데이터셋에 대해 retrieval을 해야하는데 쿼리와 문서 간 관련성 판단할 수 있는 정보가 부족(관련성 판단/점수가 없으면 학습이 불가능해짐)
HyDE
1.
Unsupervised Contrastive Learning
HyDE는 문서-문서 유사성을 포착하는 문서 전용 임베딩 공간에서 검색을 수행함으로써 앞서 언급한 학습 문제를 우회, unsupervised contrastive learning으로 학습
2.
Query vector generation
쿼리 q와 textual instruction INST를 받아 INST에 적혀 있는 태스크를 수행
g(q, INST) = InstructLM(q, INST)
INST: “write a paragraph that answers the question”으로 hypothetical document 생성
이 문서들은 실제가 아니지만, relevance pattern을 포착하기만 하면 됨
관련성 모델링을 표현 학습 모델에서 자연어 생성(NLG) 모델로 전환, 더 쉽게 일반화 가능
3. Encoding Generated Documents
생성된 문서를 인코더로 벡터 변환
E 는 기대값(Expectation Value)을 나타내며, 이는 생성된 문서의 벡터의 기대값을 의미함
g: 가상의 문서 생성 함수, f: 문서 → 임베딩 함수
1.
Probability distribution and sampling
g로부터 N개의 문서를 샘플링하여 기대값 추정 [dˆ , dˆ , ..., dˆ ]
N개의 문서를 샘플링하고 샘플링된 문서들의 벡터 평균을 계산하는 식
2.
Inner Product
v^qij와 모든 문서 벡터들 간의 내적 계산해서 가장 비슷한 문서를 retrieve
인코더 함수 f는 dense vector를 출력하는 lossy compressor로 작동
Experiments
Setup
Model: InstructGPT(text-davinci-003), Contriever
temperature: 0.7
Dataset: TREC DL19 & DL20(web search query sets, based on MS-MARCO)
low resource dataset: BEIR
HyDE retrievers and Contriever models share exact same embedding spaces
Web search
Low Resource Retrieval
Multilngual Retrieval
Analysis
더 작은 사이즈 모델 시도, 작은 모델도 성능 향상시킴
HyDE with Fine-tuned Encoder
HyDE를 파인튜닝된 인코더(retriever)랑 사용하는 건 좋지 않음: relevance label이 조금 있을 때 성능이 더 좋음
약한 instruction LM을 사용하면 fine-tuned retriever의 성능에 부정적으로 영향을 끼침
Conclusion
HyDE는 dense retriever만큼 효과적
Kp
Subscribe to 'kpmg-lighthouse'
Welcome to 'kpmg-lighthouse'!
By subscribing to my site, you'll be the first to receive notifications and emails about the latest updates, including new posts.
Join SlashPage and subscribe to 'kpmg-lighthouse'!
Subscribe
👍
Lighthouse
LiLT:A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding
LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding 논문명 : LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding 링크 : https://arxiv.org/abs/2202.13669 출간일 : 2022.02 출간 학회 : ACL 저자 : Wang, Jiapeng, Lianwen Jin, and Kai Ding 소속 : South China University of Technology, Guangzhou, China IntSig Information Co., Ltd, Shanghai, China INTSIG-SCUT Joint Laboratory of Document Recognition and Understanding, China Peng Cheng Laboratory, Shenzhen, China 인용 수 : 117 코드 : https://github.com/jpWang/LiLT https://huggingface.co/docs/transformers/main/model_doc/lilt Abstract 문제 의식 : English 에 특화된 Structured Document Understanding (SDU) 모델들만 있음 → Multi lingual SDU 모델에 Contribution DLA 태스크를 명확히 말하지 않음. Semantic Entity Recognition (SER), Relation Extraction(RE) 에 한정해서 언급 Paragraph 단위의 SER 이 DLA Task 와 같은 것으로 보임
👍
1
Lighthouse
Improving Text Embeddings with Large Language Models
논문 개요 논문명: Improving Text Embeddings with Large Language Models 링크 : https://arxiv.org/pdf/2401.00368 출간일 : 2023.12 출간 학회 : ACL 저자 : Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei 소속 : Microsoft Corporation 인용 수 : 51 코드 : https://github.com/microsoft/unilm/tree/master/e5 Abstract 합성 데이터와 1K 학습 스텝보다 적은 스텝을 사용하여 높은 퀄리티의 텍스트 임베딩 얻는 방법 소개 기존 방법은 많은 양의 weakly-supervised text pair로 프리트레인을 하고 라벨링 된 데이터로 파인튜닝을 해야했음 proprietary(독자적) LLM을 활용하여 93개 언어에 걸쳐 임베딩 태스크를 위한 합성 데이터 생성 오픈 소스 디코더-only LLM을 합성 데이터로 standard contrastive loss로 파인튜닝 라벨링 데이터를 하나도 사용하지 않고 좋은 성능을 보임 합성 데이터와 라벨링 데이터를 섞어 파인튜닝을 더 진행하여 BEIR와 MTEB에서 sota 달성 Introduction 이전 연구들(Glove 등)에서 사전 학습된 단어 임베딩의 가중 평균이 semantic similarity를 측정하는 강력한 기준임을 보여줬지만, 이 방법들은 자연어의 풍부한 맥락 정보를 포착하지 못함(토큰 간의 관계 파악) 프리트레인 언어 모델 등장 이후 NLI 데이터셋에 BERT를 파인튜닝한 예시들: Sentence-BERT, SimCSE BGE, E5: multi-stage 학습 패러다임으로, 수십억 개의 weakly-supervised 텍스트 쌍에 대해 사전 학습 후 고품질 라벨 데이터셋에 대해 파인튜닝
Lighthouse
SELF-RAG: Learning to Retrieve, Generate and Critique Through Self-Reflection
안녕하세요! KPMG 라이트하우스 AI Engineer들은 매주 쏟아지는 LLM 및 모델관련 논문 스터디를 수행하고 실무에 적용해오고 있습니다. 그 중 일부를 발췌하여 여러분들께 공유드립니다. SELF-RAG: Learning to Retrieve, Generate and Critique Through Self-Reflection Abstract LLM은 자체 매개변수 지식에 의존하기 때문에 부정확한 답변을 생성하지만 RAG로 이런 문제를 줄일 수 있음 문서가 관련성이 있는지 확인하지 않은 무분별한 검색과 고정된 수의 검색 문서 통합은 성능을 저하시킴 Self-Reflective Retrieval-Augmented Generation 소개 LM을 on-demand로 상황에 맞게 검색할 수있게 학습시키고, ‘reflection token’을 사용하여 검색한 문서와 생성물을 성찰 reflection token 생성으로 추론 단계에서 LM을 제어하고 다양한 작업 요구사항에 맞춰 LM의 동작을 조정 가능 1. Introduction SELF-RAG: 온디맨드 검색과 self reflection을 통해 LLM의 생성 품질과 정확성 향상 임의의 LM을 end-to-end 방식으로 주어진 작업 입력에 대해 자체 생성 과정을 성찰하도록 학습, 태스크 아웃풋과 중간에 특별한 토큰(reflection token) 출력 Reflection 토큰은 retrieval과 critique 토큰으로 나뉘며 검색 필요성과 생성 성능을 표시