아무튼-작업일지
Sign In
공부 내용
Semantic search
Y
yeji Kim
Sep 4, 2024
2y ago
•
ENHANCING KNOWLEDGE RETRIEVAL WITH IN-CONTEXT LEARNING AND SEMANTIC SEARCH THROUGH GENERATIVE AI
◦
Method 1 : Generative text retrieval (GTR)
▪
각 chunk에 word2vec 등으로 Embedding → vector database 구축
▪
query embedding과 유사도 계산 → 가장 가까운 걸로.
◦
Generative tabular text retrieval (GTR-T)
▪
먼저 database table과 meta data를 가져와서 .csv로 저장.
▪
query를 embedding하여 관련있는 table을 찾음
▪
이 table을 Llm한테 줘서 적절한 sql 쿼리문을 생성함.
•
Olio: A Semantic Search Interface for Data Repositories
◦
Intro
▪
Q&A, exploratory search, design search.
▪
태블로를 활용한 시각화 → 썸네일 제공?
◦
Related works
▪
Semantic web search system
•
keyword(structured query languages) based or NL based
•
keyword based
◦
QUERIX - stanford CoreNLP parser + wordNet
◦
olio는 trends, location, groupings, aggregations, filters 등으로 intentfmf qnsfbgka.
◦
의도를 특정 그룹으로 나누는 것 같음. 내가 하려는 것과 잘 어울리는지는 모르겠어서 일단 읽기 중단.
•
Know where to go : make llm a relevant, responsible, and trustworthy searcher.
◦
Intro
▪
목표
•
relevant - query와 관련 있는 text를
•
trustworthy - 믿을 만한 source에서 가져와
•
responsible - 믿을 만한 evidence를 추출하기.
▪
3 integral modules
•
Intent-aware generator - query와 online source 사이의 연결...?
•
Evidence-sensitive validator - web data로 source의 신뢰도 분석 → evidence 추출
•
Multi-strategy supported optimizer - LLM의 self critique ability와 web analysis capa로 신뢰도 향상
▪
contributions
•
generator, validator, optimizer로 된 architecture 제안
•
multi-strategy fusion
•
comprehensive evaluation framework
◦
Related works
▪
LLMs
•
Domain-specific models
◦
Alpaca, LLaMA-Adapter, Vicuna, Baize, Toolformer, Gorilla
▪
이들의 학습 방법을 참고해봐도 좋을 듯.
•
Retrieval-augmented models
◦
Query2Doc - fabricate pseudo docs → 학습으로 관련된 text를 생성할 확률을 올림.
◦
LLM-URL - LLM한테 관련된 url을 찍게 시킴.
◦
PRP - query와 document 쌍을 평가함.
◦
ALCE - output을 평가함
◦
FLARE - multiple search engine query으로 proactive prediction
▪
Generative information retrieval systems
•
WebGPT, web GLM
▪
Human feedback and AI feedback
•
RLHF, InstructGPT
•
Fine-grained HF -
•
PRM -
•
AlpacaFarm - human feedback을 모방
•
RL-CAI, PD-SA - minimal supervised signals
◦
Methodology
▪
개괄
•
Retriever, generator, scorer
•
retrieval/generation
•
direct association between queries, online sources
▪
Generator
•
LLM이 믿을만한 source를 만들어내도록 가이드
•
2 sub modules
◦
intent-based query expansion
▪
Appendix B 살펴보기 !!
▪
multi-level topic generation strategy
▪
10 broad thematic categories → 100 sub themes.
▪
formulate intent recognition and query expansion instruction
◦
constrained online source generation
▪
gradual leveraging이 중요함. (천천히 범위를 좁혀나가기?)
▪
1차로 먼저 쿼리와 관련된 url을 찾아달라 요청한 다음,(online source generation)
▪
해당 url의 도메인만 따와서, 그 도메인 안에서 다시 찾아달라고 하기. (generation constraint)
▪
Self-verification
▪
Validator
•
2 evidence retrrieval strategies. score-only strategy.
◦
Experiment
▪
Baseline - new bing, perplexity.ai, web GPT, web GLM
Subscribe to '아무튼-작업일지'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to '아무튼-작업일지'!
Subscribe