Share
Sign In
Lighthouse LLM
Improving Text Embeddings with Large Language Models
L
Lighthouse
👍
논문 개요
논문명: Improving Text Embeddings with Large Language Models
출간일 : 2023.12
출간 학회 : ACL
저자 : Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
소속 : Microsoft Corporation
인용 수 : 51
Abstract
합성 데이터와 1K 학습 스텝보다 적은 스텝을 사용하여 높은 퀄리티의 텍스트 임베딩 얻는 방법 소개
기존 방법은 많은 양의 weakly-supervised text pair로 프리트레인을 하고 라벨링 된 데이터로 파인튜닝을 해야했음
proprietary(독자적) LLM을 활용하여 93개 언어에 걸쳐 임베딩 태스크를 위한 합성 데이터 생성
오픈 소스 디코더-only LLM을 합성 데이터로 standard contrastive loss로 파인튜닝
라벨링 데이터를 하나도 사용하지 않고 좋은 성능을 보임
합성 데이터와 라벨링 데이터를 섞어 파인튜닝을 더 진행하여 BEIR와 MTEB에서 sota 달성
Introduction
이전 연구들(Glove 등)에서 사전 학습된 단어 임베딩의 가중 평균이 semantic similarity를 측정하는 강력한 기준임을 보여줬지만, 이 방법들은 자연어의 풍부한 맥락 정보를 포착하지 못함(토큰 간의 관계 파악)
프리트레인 언어 모델 등장 이후
NLI 데이터셋에 BERT를 파인튜닝한 예시들: Sentence-BERT, SimCSE
BGE, E5: multi-stage 학습 패러다임으로, 수십억 개의 weakly-supervised 텍스트 쌍에 대해 사전 학습 후 고품질 라벨 데이터셋에 대해 파인튜닝
기존 multi-stage 접근법의 단점
대량의 관련 쌍을 만들기 위해 복잡한 다단계 학습 파이프라인이 많은 엔지니어링 노력을 요구
대부분의 기존 방법은 BERT 스타일의 인코더를 backbone으로 사용하여 더 나은 LLM 관련 기술의 최근 발전을 무시(예를 들어 context extention)
기존 접근법의 한계 극복
다양한 텍스트 임베딩 작업을 위해 93개 언어로 합성 데이터를 생성하는 독자적인 LLM 사용, 두 단계 프롬프트 전략
LLM이 후보 작업 풀을 브레인스토밍하도록 프롬프팅
주어진 작업에 따라 데이터를 생성하도록 프롬프팅
web-scale 데이터에 대해 광범위하게 사전 학습된 강력한 오픈 소스 LLM 파인튜닝, LLM에서는 BERT 모델에 중요하다고 입증된 contrastive 사전 학습이 별로 이점이 없음
E5-Mistral 특징
Mistral-7B: 합성 데이터로만 파인튜닝해도 BEIR 및 MTEB 벤치마크에서 좋은 성능
합성 데이터와 라벨 데이터 혼합으로 파인튜닝한 결과, 이전 방법을 큰 폭으로 능가하는 새로운 최고 성능(+2%) 달성, sota 달성
1000 스텝 이하 소요
위치 임베딩의 회전 기준을 변경하여 입력 토큰을 최대 32k까지 확장 가능
고자원 언어에서 탁월한 성능
Method
Synthetic Data Generation
다양성은 의미 검색, 텍스트 유사성, 클러스터링 등 다양한 작업에서 성능을 발휘할 수 있는 강력한 텍스트 임베딩을 개발하는 데 필수적, 다양한 인공 데이터를 생성하기 위해 임베딩 작업을 여러 그룹으로 분류하는 간단한 분류 체계를 제안하고 각 그룹에 다른 프롬프트 템플릿을 적용
Asymmetric Tasks
의미론적으로 관련이 있지만 서로의 요약은 아닌 쿼리와 문서의 쌍
four subgroups: short-long match, long-short match, short-short match, and long-long match
두 단계의 프롬프트 템플릿을 설계
LLMs가 먼저 작업 목록을 브레인스토밍
작업 정의에 따라 구체적인 예제를 생성
Symmetric Tasks
표면 형식(surface form)은 다르지만 의미가 유사한 쿼리와 문서
monolingual semantic textual similarity (STS) & bitext retrieval(다른 언어 쌍)
프롬프트와 합성 데이터의 다양성을 높이기 위해 각 프롬프트 템플릿에 placeholder 포함
Experiments
500K 샘플, 150K의 독특한 instruction, 93개국어, 총 토큰 180M
Model Fine-tuning and Evaluation
프리트레인 된 Mistral-7b 체크포인트를 1 epoch 동안 파인튜닝, RankLLaMA 학습 방법 사용, rank 16 LoRA
GPU 메모리 줄이기 위해 gradient checkpointing, mixed precision, DeepSpeed ZeRO-3 사용
합성 데이터와 13개의 공개 데이터셋을 사용, 샘플링 후 약 1.8M 개
RankLLaMA: 쿼리와 후보 문서를 인풋으로 함께 전달하고 모델이 문서가 쿼리에 얼마나 연관성이 있는지에 대한 스코어 출력
Main Results
생성 언어 모델과 텍스트 임베딩은 둘 다 자연어의 깊은 이해를 요함, robust한 LLM은 학습 데이터를 직접 생성하고 가벼운 파인튜닝으로 임베딩 모델 전환 가능할 것
Multilingual Retrieval
low-resource 언어는 mE5보다 좋지 않은데, Mistral-7B가 영어 위주로 학습되어서 그런 듯함
cross-lingual retrieval도 자료 많은 언어 위주로 잘 함
Analysis
Is Contrastive Pre-training Necessary?
XLM-R은 프리트레인을 했을 때 성능이 더 좋지만, Mistral의 경우 프리트레인이 성능에 영향을 거의 끼치지 않음
광범위한 auto-regressive 프리트레인을 통해 LLM은 우수한 텍스트 표현을 획득할 수 있으며, 이를 효과적인 임베딩 모델로 변환하는 데 최소한의 파인튜닝 필요
Extending to Long Text Embeddings
personalized passkey retrieval 태스크로 평가
RoPE rotation base와 sliding window size를 변형시켜 성능 비교
컨텍스트 길이가 길어지면 정확도가 떨어짐
RoPE rotation base를 10^5로 바꾸면 32k 토큰에서도 90%의 정확도를 보이고, 짧은 컨텍스트 성능이 떨어짐
Analysis of Training Hyperparameters
results under different configurations
Mistral이 Llama보다 성능 우수, instruction 추가하면 성능 좋아짐
Conclusion
LLM을 활용하여 텍스트 임베딩의 성능을 substantially enhance 가능
proprietary(소유권이 있는)한 GPT-4 같은 LLM을 프롬프팅하여 여러 언어로 지시가 가능한 다양한 합성 데이터 생성
Mistral 모델의 훌륭한 언어 이해 능력과 합쳐져 좋은 임베딩 모델 생성
기존 multi-stage 방법보다 더 효율적인 학습 과정, 프리트레인 필요 없음
Appendix
Hyperparameters for Fine-tuning
batch size 2048
1 hard negative for each query-document pair
18 hours on 32 V100 GPUs
maximum sequence length 512
LoRA adapters to all linear layers, total of 42M trainable parameters
Kp
Subscribe to 'kpmg-lighthouse'
Welcome to 'kpmg-lighthouse'!
By subscribing to my site, you'll be the first to receive notifications and emails about the latest updates, including new posts.
Join SlashPage and subscribe to 'kpmg-lighthouse'!
Subscribe
👍
Eunyoung Lee
Precise Zero-Shot Dense Retrieval without Relevance Labels
논문 개요 논문명: Precise Zero-Shot Dense Retrieval without Relevance Labels 링크 : https://arxiv.org/pdf/2212.10496 출간일 : 2022.12 출간 학회 : - 저자 : Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan 소속 : Carnegie Mellon University, University of Waterloo 인용 수 : 130 코드 : https://python.langchain.com/v0.1/docs/use_cases/query_analysis/techniques/hyde/ (비공식 코드) Abstract dense retrieval이 다양한 작업과 언어에서 효과적이고 효율적인 것으로 나타났지만, relevance label이 없는 상황에서 효과적인 fully zero-shot dense retrieval system을 만드는 것은 어려움 Hypothetical Document Embeddings (HyDE) 쿼리가 주어졌을 때, instruction-following language model(e.g. InstructGPT)가 hypothetical 문서를 생성하도록 함 문서는 relevance pattern을 포착하지만 비현실적이고 틀린 디테일을 가질 수 있음 supervised contrastively learned encoder(e.g. Contriever)가 문서를 임베딩, 벡터 유사도를 기반으로 하여 유사한 실제 문서를 retrieve 생성된 문서를 실제 코퍼스와 연결시키며, 인코더(contriever)의 dense bottleneck 현상이 부정확한 세부 사항을 필터링함 실험 결과, HyDE는 최신 unsupervised dense retriever인 Contriever의 성능 크게 능가, 다양한 작업(예: 웹 검색, QA, 사실 확인)과 언어(예: 스와힐리어, 한국어, 일본어)에서 fine-tuned된 retriever와 비교할 만한 강력한 성능을 보여줌 Introduction 기존 방법 Dense retrieval: 시멘틱 임베딩 유사도로 문서 검색 supervised dense retrieval model 성능 개선 방법 제시: negative mining, distillation, task-specific pre-training
Lighthouse
LiLT:A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding
LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding 논문명 : LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding 링크 : https://arxiv.org/abs/2202.13669 출간일 : 2022.02 출간 학회 : ACL 저자 : Wang, Jiapeng, Lianwen Jin, and Kai Ding 소속 : South China University of Technology, Guangzhou, China IntSig Information Co., Ltd, Shanghai, China INTSIG-SCUT Joint Laboratory of Document Recognition and Understanding, China Peng Cheng Laboratory, Shenzhen, China 인용 수 : 117 코드 : https://github.com/jpWang/LiLT https://huggingface.co/docs/transformers/main/model_doc/lilt Abstract 문제 의식 : English 에 특화된 Structured Document Understanding (SDU) 모델들만 있음 → Multi lingual SDU 모델에 Contribution DLA 태스크를 명확히 말하지 않음. Semantic Entity Recognition (SER), Relation Extraction(RE) 에 한정해서 언급 Paragraph 단위의 SER 이 DLA Task 와 같은 것으로 보임
👍
1
Lighthouse
SELF-RAG: Learning to Retrieve, Generate and Critique Through Self-Reflection
안녕하세요! KPMG 라이트하우스 AI Engineer들은 매주 쏟아지는 LLM 및 모델관련 논문 스터디를 수행하고 실무에 적용해오고 있습니다. 그 중 일부를 발췌하여 여러분들께 공유드립니다. SELF-RAG: Learning to Retrieve, Generate and Critique Through Self-Reflection Abstract LLM은 자체 매개변수 지식에 의존하기 때문에 부정확한 답변을 생성하지만 RAG로 이런 문제를 줄일 수 있음 문서가 관련성이 있는지 확인하지 않은 무분별한 검색과 고정된 수의 검색 문서 통합은 성능을 저하시킴 Self-Reflective Retrieval-Augmented Generation 소개 LM을 on-demand로 상황에 맞게 검색할 수있게 학습시키고, ‘reflection token’을 사용하여 검색한 문서와 생성물을 성찰 reflection token 생성으로 추론 단계에서 LM을 제어하고 다양한 작업 요구사항에 맞춰 LM의 동작을 조정 가능 1. Introduction SELF-RAG: 온디맨드 검색과 self reflection을 통해 LLM의 생성 품질과 정확성 향상 임의의 LM을 end-to-end 방식으로 주어진 작업 입력에 대해 자체 생성 과정을 성찰하도록 학습, 태스크 아웃풋과 중간에 특별한 토큰(reflection token) 출력 Reflection 토큰은 retrieval과 critique 토큰으로 나뉘며 검색 필요성과 생성 성능을 표시