Improving Text Embeddings with Large Language Models - Lighthouse AI

Lighthouse AI

AI 기술 이야기

최윤진17d

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

논문명 : Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models 링크 : https://arxiv.org/pdf/2312.06109 출간일 : 2023.12 출간 학회 : Springer 저자 : Haoran Wei1∗ , Lingyu Kong2∗, Jinyue Chen2, Liang Zhao1, Zheng Ge1†, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 소속 : MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology 인용 수 : 48 코드 : https://github.com/Ucas-HaoranWei/Vary https://varybase.github.io/ Wei, Haoran, et al. "Vary: Scaling up the vision vocabulary for large vision-language model." European Conference on Computer Vision. Springer, Cham, 2025. Abstract 대부분의 LVLM 은 Vision Vocabulary(Vision Encoder) 로 CLIP 을 사용. 하지만 Document OCR, Chat Understanding 과 같은 dense vision perception 이 필요한 태스크의 경우에 CLIP 은 충분하지 않음. 특히 non english document, high resolution image, chart understanding 를 다루는 경우 out of vocabulary problem 을 보임 제안 아키텍쳐 : Vary an efficient and effective method to scale up the Vision vocabulary of LVLMs. Vision Vocabulary 를 효율적이고 효과적으로 스케일업 Vary 학습은 generation, integration 두 과정으로 진행됨 generation a new vision vocabulary vocabulary network + tiny decoder only transformer 를 이용해서 auto-regression train

최윤진24d

CG-VLM : Constrastive Vision-Language Alignment maskes Efficient Instruction Learner

논문명 : Constrastive Vision-Language Alignment maskes Efficient Instruction Learner 링크 : https://arxiv.org/abs/2311.17945 출간일 : 2023.11.29 저자 : Lizhao Liu, Xinyu Sun, Tianhang Xiang, Zhuangwei Zhuang, Liuren Yin, Mingkui Tan, 소속 : South China University of Technology, PengCheng Laboratory, Duke University 인용 수 : 1 코드 : https://github.com/lizhaoliu-Lec/CG-VLM (coming soon..) Abstract 주제 : LLM 모델을 vision-language instruction-following 모델로 확장 = LLM이 이미지를 더 효과적으로 이해하고 처리할 수 있게끔 한다 Challenge 텍스트만 학습된 LLM에 어떻게 이미지 정보를 효과적으로 학습시키는가 핵심 Task ViT와 LLM 간의 표현을 최대한 일치시키기 Generative image caption loss를 활용하여 Visual adapter 학습 → 이미지 세부 사항을 학습하기 어려움 ViT와 LLM의 표현을 최대한 일치시켜 세부적인 연관성에 대해 학습한다 → Contrastive + Generative → 이미지 patch 수준의 특징과 텍스트 토큰 수준의 임베딩 정렬 Image-caption dataset에서 패치-토큰 관계가 제공되지 않음 → 이미지 패치 특징과 텍스트 토큰 임베딩 간의 평균 유사도 최대화 Introduction 기존 연구 pre-trained ViT와 LLM을 결합하여 복잡한 비전 지시 작업을 수행 (CLIP의 pre-trained ViT를 주로 이용) Image-Text 정렬 단계가 필수적, vision adapter를 학습하여 정렬

Eunyoung LeeOct 23

LightRAG: Simple and fast retrieval augmented generation

링크 : https://arxiv.org/abs/2410.05779 출간일 : 2024.10 저자 : Zirui Guo, Lianghao Xia, Yanhua Yu, Tu Ao, Chao Huang 코드 : https://github.com/HKUDS/LightRAG Abstract 기존 문제점 복잡한 관계나 문맥을 제대로 이해하지 못함 단편적인 답변을 제공- > 질문이 여러 주제에 걸쳐있을 때 문제 발생 ex) 전기차의 증가가 도시의 공기질과 대중교통 인프라에 어떤 영향을 미치는가? 논문 제안 텍스트 색인 및 검색 과정에 그래프 구조 도입 저수준(세부 사항), 고수준(넓은 주제)를 모두 다룰 수 있는 이중 레벨 검색 시스템 증분 업데이트 알고리즘으로 새로운 데이터만 부분적으로 업데이트 증분 업데이트(incremental update algorithm)란, 새로운 데이터만 부분적으로 업데이트 하는것을 말함 기존 RAG 시스템들과 비교하여 더 높은 검색 정확도, 더 빠른 검색 속도 제공 1. Introduction 일반적인 측면 그래프 기반 RAG 시스템을 개발하는 것이 기존 방법의 한계를 극복하는 중요한 방법임. 그래프 구조를 통합함으로써, 복잡한 관계를 더 잘 이해하고 맥락적으로 풍부한 응답 생성 방법론적 측면

Eunyoung LeeOct 17

Introducing Contextual Retrieval

아티클 개요 아티클 명: Introducing Contextual Retrieval 링크 : https://www.anthropic.com/news/contextual-retrieval 출간일 : 2024.9 저자 : Anthropic 소속 : Anthropic 코드 : https://github.com/anthropics/anthropic-cookbook/tree/main/skills/contextual-embeddings Introduction Problem of traditional RAG 정보를 인코딩할 때 컨텍스트를 삭제하여, 지식 베이스로부터 관련 있는 정보를 검색하는 데 실패함 Contextual Retrieval Two sub-techniques Contextual Embedding Contextual BM25 retrieval 실패 확률을 49% 줄임 reranking과 함께 사용되었을 때는 67% ❓A note on simply using a longer prompt 지식 베이스가 200,000 토큰 이하일 경우 가능 프롬프트 캐싱을 사용할 수도 있겠지만, 지식 베이스가 커지면 한계가 있음

최윤진Oct 10

LaVIT : UNIFIED LANGUAGE-VISION PRETRAINING IN LLM WITH DYNAMIC DISCRETE VISUAL TOKENIZATION

논문명 : UNIFIED LANGUAGE-VISION PRETRAINING IN LLM WITH DYNAMIC DISCRETE VISUAL TOKENIZATION 링크 : https://arxiv.org/pdf/2309.04669 출간일 : 2023.09 출간 학회 : ICLR 2024 저자 : Yang Jin1∗ , Kun Xu2, Kun Xu2, Liwei Chen2, Chao Liao2, Jianchao Tan2, Quzhe Huang1, Bin Chen2, Chenyi Lei2, An Liu2, Chengru Song2, Xiaoqiang Lei2, Di Zhang2, Wenwu Ou2, Kun Gai2, Yadong Mu1 소속 : Peking University, Kuaishou Technology 인용 수 : 30 코드 : https://github.com/jy0205/LaVIT https://huggingface.co/rain1011/LaVIT-7B-v2 Abstract 기존 VLM 방법 → visual input 을 prompt 로 처리 하고 text generation 을 최적화 하는것에 집중. vision 과 text 에 대한 모달리티를 다르게 처리하기 때문에 VLM 의 potential 이 많이 발현이 안됨. ❓VLM 이 image 와 text 를 동등하게 처리해줘야 한다. In this paper vision 과 language 를 통합된 형식으로 represent 해서 기존 문제를 해결함. visual tokenizer 를 이용해서 non linguistic 한 이미지를 llm 이 이해할수 있는 sequence token 으로 처리 propose LaVIT model Understanding, Generation 으로 각각 인퍼런스 가능함. Introduction (a), (b) 기존 VLM 방법들.

Eunyoung LeeOct 7

The Power of Noise: Redefining Retrieval for RAG Systems

Abstract 질문과 관련이 있지만 답을 포함하지 않은 문서는 LLM의 정확도를 하락시킬 수 있음 무작위 문서(무관한 문서)를 RAG 시스템에 추가했을 때 오히려 LLM의 정확도가 상승하였음 검색된 문서의 개수가 증가할수록 성능 저하 골드 문서가 프롬프트 내애서 질문과 가까운 위치에 있을 때 정확도가 높아짐 Condition Dataset Natural Questions(NQ) dataset 구글 검색 데이터에서 실제 사용자 쿼리를 기반으로 수집된 데이터 NQ-Open dataset NQ 데이터셋과 달리 정답이 특정 Wikipedia에 직접 연결 X where did they film hot tub time machine [ "Fernie Alpine Resort" ] who has the right of way in international waters [ "Neither vessel" ] who does annie work for attack on titan [ "Marley" ] Wikipedia dataset 100단어 구절로 나뉘어 사용 Types of Documents

최윤진Oct 7

DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks

ABSTRACT 주제 Detail-oriented, fine-grained task를 위한 Model 문제점 CLIP의 한계 Detail-oriented (segmentation) task에서 contrastive learning 기반 vision-language model의 한계 Global alignment에서는 뛰어나지만 fine-grained detail을 포착하는데 어려움이 있음 목적 고수준의 의미 이해 세부적인 특징 추출 Introduction CLIP 장단점 장점 Shared embedding space를 생성하는 혁신적인 접근법 Classification task에서 효과적임을 입증 단점 Contrastive loss에 의존하는 것은 image segmentation같은 정밀한 작업에 모델을 적응시키는데 있어 한계점 이유 Segmentaion과 같은 정밀한 작업을 위해서; 장면 전체에 대한 포괄적인 이해 + 픽셀 수준의 정확한 경계 구분

Eunyoung LeeSep 13

Precise Zero-Shot Dense Retrieval without Relevance Labels

논문 개요 논문명: Precise Zero-Shot Dense Retrieval without Relevance Labels 링크 : https://arxiv.org/pdf/2212.10496 출간일 : 2022.12 출간 학회 : - 저자 : Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan 소속 : Carnegie Mellon University, University of Waterloo 인용 수 : 130 코드 : https://python.langchain.com/v0.1/docs/use_cases/query_analysis/techniques/hyde/ (비공식 코드) Abstract dense retrieval이 다양한 작업과 언어에서 효과적이고 효율적인 것으로 나타났지만, relevance label이 없는 상황에서 효과적인 fully zero-shot dense retrieval system을 만드는 것은 어려움 Hypothetical Document Embeddings (HyDE) 쿼리가 주어졌을 때, instruction-following language model(e.g. InstructGPT)가 hypothetical 문서를 생성하도록 함 문서는 relevance pattern을 포착하지만 비현실적이고 틀린 디테일을 가질 수 있음 supervised contrastively learned encoder(e.g. Contriever)가 문서를 임베딩, 벡터 유사도를 기반으로 하여 유사한 실제 문서를 retrieve 생성된 문서를 실제 코퍼스와 연결시키며, 인코더(contriever)의 dense bottleneck 현상이 부정확한 세부 사항을 필터링함 실험 결과, HyDE는 최신 unsupervised dense retriever인 Contriever의 성능 크게 능가, 다양한 작업(예: 웹 검색, QA, 사실 확인)과 언어(예: 스와힐리어, 한국어, 일본어)에서 fine-tuned된 retriever와 비교할 만한 강력한 성능을 보여줌 Introduction 기존 방법 Dense retrieval: 시멘틱 임베딩 유사도로 문서 검색 supervised dense retrieval model 성능 개선 방법 제시: negative mining, distillation, task-specific pre-training

LighthouseSep 5

LiLT:A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding

LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding 논문명 : LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding 링크 : https://arxiv.org/abs/2202.13669 출간일 : 2022.02 출간 학회 : ACL 저자 : Wang, Jiapeng, Lianwen Jin, and Kai Ding 소속 : South China University of Technology, Guangzhou, China IntSig Information Co., Ltd, Shanghai, China INTSIG-SCUT Joint Laboratory of Document Recognition and Understanding, China Peng Cheng Laboratory, Shenzhen, China 인용 수 : 117 코드 : https://github.com/jpWang/LiLT https://huggingface.co/docs/transformers/main/model_doc/lilt Abstract 문제 의식 : English 에 특화된 Structured Document Understanding (SDU) 모델들만 있음 → Multi lingual SDU 모델에 Contribution DLA 태스크를 명확히 말하지 않음. Semantic Entity Recognition (SER), Relation Extraction(RE) 에 한정해서 언급 Paragraph 단위의 SER 이 DLA Task 와 같은 것으로 보임

LighthouseAug 16

Improving Text Embeddings with Large Language Models

논문 개요 논문명: Improving Text Embeddings with Large Language Models 링크 : https://arxiv.org/pdf/2401.00368 출간일 : 2023.12 출간 학회 : ACL 저자 : Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei 소속 : Microsoft Corporation 인용 수 : 51 코드 : https://github.com/microsoft/unilm/tree/master/e5 Abstract 합성 데이터와 1K 학습 스텝보다 적은 스텝을 사용하여 높은 퀄리티의 텍스트 임베딩 얻는 방법 소개 기존 방법은 많은 양의 weakly-supervised text pair로 프리트레인을 하고 라벨링 된 데이터로 파인튜닝을 해야했음 proprietary(독자적) LLM을 활용하여 93개 언어에 걸쳐 임베딩 태스크를 위한 합성 데이터 생성 오픈 소스 디코더-only LLM을 합성 데이터로 standard contrastive loss로 파인튜닝 라벨링 데이터를 하나도 사용하지 않고 좋은 성능을 보임 합성 데이터와 라벨링 데이터를 섞어 파인튜닝을 더 진행하여 BEIR와 MTEB에서 sota 달성 Introduction 이전 연구들(Glove 등)에서 사전 학습된 단어 임베딩의 가중 평균이 semantic similarity를 측정하는 강력한 기준임을 보여줬지만, 이 방법들은 자연어의 풍부한 맥락 정보를 포착하지 못함(토큰 간의 관계 파악) 프리트레인 언어 모델 등장 이후 NLI 데이터셋에 BERT를 파인튜닝한 예시들: Sentence-BERT, SimCSE BGE, E5: multi-stage 학습 패러다임으로, 수십억 개의 weakly-supervised 텍스트 쌍에 대해 사전 학습 후 고품질 라벨 데이터셋에 대해 파인튜닝

LighthouseAug 5

SELF-RAG: Learning to Retrieve, Generate and Critique Through Self-Reflection

안녕하세요! KPMG 라이트하우스 AI Engineer들은 매주 쏟아지는 LLM 및 모델관련 논문 스터디를 수행하고 실무에 적용해오고 있습니다. 그 중 일부를 발췌하여 여러분들께 공유드립니다. SELF-RAG: Learning to Retrieve, Generate and Critique Through Self-Reflection Abstract LLM은 자체 매개변수 지식에 의존하기 때문에 부정확한 답변을 생성하지만 RAG로 이런 문제를 줄일 수 있음 문서가 관련성이 있는지 확인하지 않은 무분별한 검색과 고정된 수의 검색 문서 통합은 성능을 저하시킴 Self-Reflective Retrieval-Augmented Generation 소개 LM을 on-demand로 상황에 맞게 검색할 수있게 학습시키고, ‘reflection token’을 사용하여 검색한 문서와 생성물을 성찰 reflection token 생성으로 추론 단계에서 LM을 제어하고 다양한 작업 요구사항에 맞춰 LM의 동작을 조정 가능 1. Introduction SELF-RAG: 온디맨드 검색과 self reflection을 통해 LLM의 생성 품질과 정확성 향상 임의의 LM을 end-to-end 방식으로 주어진 작업 입력에 대해 자체 생성 과정을 성찰하도록 학습, 태스크 아웃풋과 중간에 특별한 토큰(reflection token) 출력 Reflection 토큰은 retrieval과 critique 토큰으로 나뉘며 검색 필요성과 생성 성능을 표시

LighthouseJul 22

Unlocking the Potential of LLMOps: A Practical Guide for Industry Application

In the ever-evolving landscape of artificial intelligence, Large Language Model Operations (LLM Ops) are emerging as a game-changer for businesses striving to harness the power of AI. Implementing LLM Ops effectively can propel your company to new heights, but it requires strategic planning and execution. Here are the key secrets to successfully applying LLM Ops in the industry. Understand Your Use Case: Before diving into LLM Ops, clearly define your business objectives and identify the specific problems you aim to solve. Whether it's customer service automation, content generation, or data analysis, a targeted approach ensures that the LLM's capabilities align with your needs. Data is King: Quality data is the backbone of any successful LLM application. Invest in curating, cleaning, and annotating your datasets. Ensure diversity and representativeness to avoid biases and enhance the model's performance across different scenarios. Infrastructure and Scalability: Deploying LLMs demands robust infrastructure. Leverage cloud platforms like AWS, Google Cloud, or Azure, which offer scalable resources tailored for high-computational tasks. This not only facilitates smooth operations but also accommodates future growth and increased workloads. Fine-Tuning and Customization: Generic models often fall short in specialized applications. Fine-tuning your LLM on domain-specific data can significantly improve accuracy and relevance. This step requires expertise but pays dividends in creating models that understand and predict user needs more precisely. Human-in-the-Loop: Integrate human oversight to ensure quality and reliability. Humans can provide critical feedback, correct errors, and introduce nuances that automated systems might miss. This collaborative approach enhances model trustworthiness and effectiveness. Continuous Monitoring and Iteration: LLM Ops is not a set-and-forget operation. Continuous monitoring for performance, biases, and anomalies is essential. Implement feedback loops and regularly update the model with new data to keep it relevant and accurate. Ethical Considerations: Ethics in AI cannot be overstated. Ensure transparency, fairness, and accountability in your LLM applications. Establish guidelines and frameworks to mitigate risks related to privacy, security, and societal impacts. By following these steps, businesses can unlock the full potential of LLM Ops, driving innovation and efficiency in their operations. Embrace the future of AI with confidence and transform your industry through smart, ethical, and effective LLM practices. Use Cases in the Finance Industry Automated Customer Support: LLMs can enhance customer service by providing instant, accurate responses to common inquiries. This reduces the burden on human agents and improves customer satisfaction. Fraud Detection: By analyzing transaction patterns and identifying anomalies, LLMs can help detect fraudulent activities in real-time, providing a layer of security and trust for financial institutions and their customers. Financial Forecasting: LLMs can process vast amounts of historical and real-time data to generate accurate financial forecasts. This aids in strategic planning, risk management, and decision-making.

Eunyoung LeeJun 19

LLM 컨텍스트 길이 늘이기

컨텍스트 길이 늘이기 컨텍스트 길이는 언어 모델이 한 번에 처리할 수 있는 토큰의 개수입니다. LLM이 처리할 수 있는 토큰 개수는 한정적이기 때문에 요약 태스크와 같이 긴 텍스트를 다루는 태스크를 위해서는 컨텍스트 길이가 긴 모델을 사용해야 합니다. 예를 들어 LLaMA3의 경우, 컨텍스트 길이가 8192기 때문에 최대 8192개의 토큰까지 밖에 다루지 못하고 더 긴 텍스트가 들어갈 경우 아웃풋 출력을 제대로 하지 못합니다. 또한 트랜스포머 기반 LLM은 메모리 footprint와 계산 시간이 지수적으로 증가하기 때문에 기존 트랜스포머 아키텍처로는 긴 시퀀스를 처리하는 데 비용이 많이 소요됩니다. 컨텍스트 길이가 긴 한국어 LLM을 사용하고자 LLM의 컨텍스트 길이를 효율적으로 늘이기 위해 조사 및 시도해본 다양한 방법들에 대해 알아보겠습니다. 컨텍스트 길이 확장 정리 표 파인튜닝 필요 여부 확장 가능 범위 사용해봤는지 여부 LongLoRA O 8배 파인튜닝 자원 부족 Position Interpolation O 8배

최윤진Jun 5

MLE와 MAP로 살펴보는 딥러닝

이번 글에서는 딥러닝을 통계로 이해하는 방법인 MLE와 MAP에 대해서 살펴보겠습니다. 1. MLE MLE는 Maximum Likelihood Estimation의 약자입니다. 가능도(Likelihood) 가능도는 확률과 대비되는 개념입니다. 정육면체의 주사위의 각 면이 나올 ‘확률’은 1/6로 정의할 수 있습니다. 확률을 사용할 수 있는 이유는 확률 분포나 모델이 명확히 정의되어 있기 때문입니다. 특정 데이터가 관찰될 정도는 확률로 표현할 수 있습니다. 반면 가능도는 데이터가 미리 정의된 상황에서 어떠한 확률 분포 혹은 모델이 그것을 설명하는 정도를 측정할때 사용합니다. 예를 들어 형태를 모르는 주사위를 400번 던졌는데 1,2,3,4의 숫자만 100번씩 나온 상황이 있다고 해봅시다. 그렇다면 주사위의 모양은 정육면체가 아니라 정사면체로부터 나올 가능성이 높다고 생각할 수 있습니다. 이러한 정도를 측정할 때 가능도를 사용합니다. 아래 그림에서 특정 점에 위치하는 데이터 x 를 설명할 가능도가 높은 것은 분홍색 확률 분포라고 할 수 있습니다. 확률은 특정 모델이 정해진 상황에서 데이터를 예측하는데 사용하지만, 가능도는 데이터가 관찰된 상황에서 사용하기 때문에 딥러닝과 관련이 있습니다. 딥러닝은 MLE다. 신경망의 가중치들이 올바르게 학습될 수록, 신경망은 데이터를 더 잘 설명할 수 있습니다. 가능도가 커지고 있다고 볼 수 있습니다. 즉, 가능도를 최대화 하는 것(MLE)는 딥러닝의 목표입니다. 가능도 $L(\theta|Data)$는 조건부 확률 $P(Data|\theta)$로 계산하며 MLE 는 아래와 같이 적을 수 있습니다.

Eunyoung LeeMay 10

Llama 3

이번 글에서는 메타의 LLM인 Llama3에 대해 살펴보도록 하겠습니다. LLaMA(Large Language Model Meta AI) 모델 메타의 오픈소스 LLM 모델로 2023년 2월에 Llama1이 처음 발표되었다. 트랜스포머 아키텍처를 기반으로 하며, Llama2의 경우 Llama1에서 학습 데이터를 40% 더 많이 사용하였다. 7B, 13B, 70B 등 여러 파라미터 사이즈의 모델이 존재하며, Alpaca와 Vinuca 같이 수많은 파생 모델이 존재한다. GPT-3와의 차이점 GeLU 대신 SwiGLU 활성화 함수 사용 Swish와 GLU의 조합인 활성화 함수로 실험적으로 성능이 뛰어나서 사용 Swish는 학습 가능한 파라미터인 $β$ 값에 따라 다른 특성을 가지는 활성화 함수 GLU(Gated Linear Units)는 모델이 신경망에서 정보가 흐르는 것을 선택적으로 조절할 수 있도록 해주는 방법 SwiGLU에서 β, W, b는 모두 학습 가능한 파라미터 SwiGLU(x) = x * sigmoid(β * x) + (**1** - sigmoid(β * x)) * (Wx + b) 절대 위치 임베딩 대신 Rotary Positional Embedding(RoPE) 사용 트랜스포머는 위치를 고려 못하기 때문에 위치 임베딩 추가 필요 기존 트랜스포머는 절대 위치 임베딩을 사용하여 위치에 따른 사인함수와 코사인 함수 값을 더하는 방식을 사용 RoPE는 시퀀스의 각 위치마다 고유한 값의 회전을 통하여 절대 위치 임베딩과 상대 위치 임베딩을 통합하는 방법 Root-Mean-Square(제곱평균제곱근) 레이어 정규화 사용 모델이 재스케일링에 영향을 받지 않고, 적절한 학습률을 자동으로 찾아가는 암시적 학습률 적응 능력을 갖게 됨 기본 레이어 정규화에 비하여 계산이 효율적이고 안정적 Grouped Query Attention 사용 기존 Multihead Attention에서는 계산된 key와 value 벡터를 디코딩 단계에 쓸 수 있도록 저장하는 Key-Value caching 때문에 연산에 비용이 많이 소요되고, 디코딩 단계마다 캐시를 로드하고 업데이트 해야 하기 때문에 메모리 오버헤드 발생 Grouped Query Attention은 Query를 그룹으로 나누고 각 그룹이 Key와 Value를 공유하도록 하여 긴 컨텍스트에서 어텐션 계산을 더 빨리 할 수 있도록 함

최윤진Apr 17

DALLE 는 어떻게 이미지를 생성할까 ?

이번 글에서는 텍스트로 이미지를 생성할 수 있는(text to image) 모델인 DALLE에 대해 살펴보도록 하겠습니다. Image Generation 이미지 생성 분야의 경우 2014년 부터 GAN이라는 모델을 기반으로 빠르게 발전해왔습니다. 현재는 사람의 그림과 AI가 생성한 그림을 구분하는 게 불가능에 가까울 정도로 고도화 된 상황입니다. 2022년에는 미드저니라는 이미지 생성 AI 모델의 작품을 이용하여 그림 대회에서 우승한 사건이 있었습니다. DALLE를 살펴보기 앞서, GenAI에 대해 먼저 살펴보도록 하겠습니다. Gen AI Representation 일반적으로는 딥러닝 모델은 데이터의 정답을 기반으로 지도학습을 수행합니다. 개와 고양이를 구분하는 분류 문제를 푸는 경우, 이 과정에서 모델은 서로 다른 클래스의 구분하는 함수를 근사합니다. 오버피팅, 언더피팅이 되지 않고 잘 학습된 모델은 새로운 데이터에 대해서도 올바르게 예측을 할 수 있습니다. 이때 모델을 보고 데이터를 잘 representation 했다고 말합니다. AlexNet은 MNIST 손글씨 데이터셋 대해 잘 분류를 해냈기 때문에 MNIST 손글씨 데이터셋에 대해 좋은 representation 가진 모델이라 할 수 있습니다. Generation 하지만 이런 Representation을 잘한다고 해서 Generation 잘 하지는 않습니다. 영어를 잘 읽고 듣는 사람이, 쓰거나 말하지 못하는 경우와 마찬가지 입니다. 그런 이유로 Generation을 잘 할 수 있도록 모델을 설계하는 분야가 GenAI로써 별도로 존재합니다. GenAI 모델은 representaion Model 의 도움을 받아 생성을 수행할 수도 있으며 단독으로 생성을 학습할 수 도 있습니다.

최윤진Mar 13

데이터 전처리와 정규표현식

이번 글에서는 딥러닝 학습에서 데이터가 가지는 중요성을 살펴보고, 데이터 전처리에 사용되는 정규표현식에 대해 살펴보겠습니다. 1. 딥러닝 성공 배경 딥러닝이 성공할 수 있었던 이유는 크게 3가지 입니다. Algorithms AlexNet, CNN, RNN, Transformer, BERT, GPT .. Computation V100, A100 .. Data MNIST, CIFAR, WikiText .. Data - Model - Cuda 먼저, Backpropagation, ReLU, Dropout, CNN 과 같은 기술들을 통해 AlexNet 이 만들어졌습니다. 시계열 데이터의 경우 RNN-LSTM-Transformer-BERT/GPT 로 이어지는 모델 계보가 있습니다. 이러한 모델 아키텍쳐가 있었기 때문에 딥러닝이 성공할 수 있었습니다. 다음 Computation 능력의 경우 병렬 처리가 가능한 좋은 GPU가 덕분에 효과적으로 학습과 추론을 할 수 있었고, 이 때문에 딥러닝이 성공할 수 있었습니다. 마지막으로 데이터입니다. 딥러닝 모델과 GPU 모두 양질의 데이터가 있을 때 비로소 의미가 있습니다. MNIST, CIFAR, WikiText 와 같은 품질 좋은 거대 데이터셋이 있었기 때문에 오차 계산의 재료가 충분했습니다. 소프트웨어 개발에 있어서 코드(Code)는 딥러닝 개발에 있어서 데이터와 같습니다. 2. 데이터 & 데이터 전처리 필요성

LighthouseJan 30

Embedding이란 무엇인가? 쉽게 배우는 AI

들어가며 인공지능(AI) 분야에서 'Embedding'이란 단어를 종종 듣게 됩니다. 하지만 이 용어가 무엇을 의미하는지, 왜 중요한지 이해하기 어려울 수 있습니다. 이 글에서는 Embedding이 무엇인지, 그리고 AI에서 어떻게 사용되는지 쉽게 설명해보겠습니다. Embedding의 기본 개념 AI 모델은 숫자로 된 데이터를 가지고 작동합니다. 하지만 실제 세계의 데이터, 특히 텍스트나 이미지 같은 비정형 데이터는 숫자가 아닙니다. Embedding을 통해 이러한 비정형 데이터를 AI 모델이 이해할 수 있는 형태로 변환할 수 있습니다. Embedding의 종류 텍스트 Embedding 가장 널리 알려진 형태의 Embedding입니다. 텍스트 Embedding은 단어, 문장, 문단을 수치 벡터로 변환합니다. 예를 들어, '사과'라는 단어를 [0.65, -0.23, 0.11] 같은 벡터로 나타낼 수 있습니다. 이를 통해 컴퓨터는 '사과'라는 단어의 의미를 어느 정도 이해할 수 있게 됩니다. 이미지 Embedding 이미지 Embedding은 이미지 데이터를 처리할 때 사용됩니다. 각 이미지를 대표하는 벡터로 변환하여, 이미지의 내용이나 스타일을 수치적으로 표현할 수 있습니다. 그래프 Embedding 소셜 네트워크나 추천 시스템에서 사용되는 그래프 데이터를 위한 Embedding 방법입니다. 이는 복잡한 네트워크 구조를 단순한 벡터 형태로 표현하여, 관계나 연결성 분석을 용이하게 합니다. Embedding의 활용 예시 자연어 처리 (NLP): 텍스트 Embedding은 NLP에서 필수적입니다. 이를 통해 기계 번역, 감정 분석, 챗봇 개발 등 다양한 응용이 가능합니다. 이미지 인식: 이미지 Embedding은 사진에서 객체를 인식하거나 스타일을 분석하는 데 사용됩니다. 예를 들어, 얼굴 인식 시스템이 여기에 해당합니다. 추천 시스템: 사용자와 상품 정보를 Embedding으로 변환하여, 사용자의 취향에 맞는 상품을 추천하는 데 활용됩니다. 결론 Embedding은 AI 분야에서 중요한 개념입니다. 비정형 데이터를 수치적 형태로 변환함으로써, AI 모델이 이를 이해하고, 다양한 문제를 해결하는 데 도움을 줍니다. 이러한 기술의 발전으로 인공지능은 우리 생활에 더욱 깊숙이 자리 잡게 될 것입니다.

최윤진Jan 25

퍼셉트론부터 AlexNet 까지

이번 글에서는 딥러닝의 초기 구조인 퍼셉트론부터 현대 아키텍쳐의 완성이라고 볼 수 있는 AlexNet까지 살펴보며 딥러닝을 전체적으로 개괄 해보도록 하겠습니다. 딥러닝이란? 만약 세상의 모든 지식, 원리, 감각, 현상 모두를 논리적으로 풀어내서 코딩으로 구현해낸다면 완벽한 인공지능을 만들어 낼 수 있습니다. 하지만 현실적으로 불가능하기 때문에 데이터를 통해 학습시키는 머신러닝을 통해 인공지능을 구현합니다. 학습이란 데이터의 패턴이나 특징을 일반화되도록 하는 과정을 말합니다. 딥러닝은 머신러닝 방법론 중 하나로 인간의 신경망을 모방하는 방법론 입니다. 현재 대부분의 인공지능 연구는 딥러닝을 기반으로 이루어지고 있습니다. 대표적으로 기존의 머신러닝 방법들은 데이터의 특징(피처)을 지정해줘야만 데이터 학습을 진행할 수 있지만, 딥러닝은 데이터의 특성을 지정해주지 않고도 학습 시킬 수 있다는 점에서 가장 큰 차이점이 있습니다. 예를 들어 기존 머신러닝 방법은 개나 고양이 사진을 분류하기 위해서 귀 모양, 눈의 크기 같은 피처를 지정해줘야하지만 딥러닝은 단지 이미지 벡터를 넣어주면 됩니다. 특징(피처)를 선별할 필요가 없다는 딥러닝의 특성상 많은 분야에 적용이 가능합니다. 대표적으로 언어와 같은 시퀀스 데이터를 학습하는 자연어 처리, 인간의 시각을 학습하는 컴퓨터 비전과 같은 분야가 있으며 로보틱스, 음성 등의 분야에서도 활발히 적용되고 있습니다. 특히, 문서를 종합적으로 이해하는 AI 모델을 만드는 DocumentAI 의 경우 컴퓨터 비전, 자연어 처리의 여러 태스크를 혼합하여 풉니다. 대표적으로 아래와 같은 태스크가 있습니다. 자연어 처리 (NLP) 기계 독해 MRC (Machine Reading Comprehesion) 엔티티 분석 NER - (Name Entity Relation) 개체간 관계 분석 RE (Relation Extraction)

최윤진Jan 25

스크래치 nanoGPT

들어가며 네이처는 매년 이슈가 된 과학자 10인, nature’s 10을 뽑습니다. 2023년 nature’s 10에 ChatGPT가 명단을 올렸습니다. 네이처는 2023년 ChatGPT 가 세상 전반에 큰 영향력을 끼쳤다고 했습니다. 더 성능이 좋고 가벼운 모델들을 개발하려는 움직임에 막대한 자본과 인력이 투입되고 있습니다. 동시에 점점 더 커지고 복잡해지는 LLM을 이해하는 것이 어려워 지고 있습니다. 이번 글에서는 GPT를 아주 간소하게 만든 nanoGPT를 만들어봄으로써 LLM의 내부 메커니즘을 파악해보겠습니다. 먼저 GPT를 잘 알기 위해서는 Transformer 모델을 알아야 합니다. 이 모델을 공식적으로 발간한 ‘Attention is all you need(NeurIPS, 2017)’ 논문은 인용수는 10만회를 넘었습니다. 이 논문을 기반으로 GPT 시리즈가 만들어졌습니다. GPT-1(2018년), GPT-2(2019년), GPT-3(2020년), InstructGPT(2022년), 그리고 2023년에 GPT-4가 나왔습니다. [Transformer] Attention Is All You Need, 2017 [GPT-1] Improving Language Understanding by Generative Pre-Training, 2018 [GPT-2] Language Models are Unsupervised Multitask Learners, 2019 [GPT-3] Language Models are Few-Shot Learners, 2020 [Instruct GPT] Training language models to follow instructions with human feedback, 2022 [GPT-4] GPT-4 Technical Report, 2023 때문에 먼저 Transformer 의 아키텍쳐를 살펴보고 nanoGPT 를 만드는 순으로 진행하겠습니다. 코드는 Andrej Karpathy 의 Let's build GPT: from scratch, in code, spelled out. 를 참고했습니다. 셰익스피어의 문체를 학습하고 생성하는 모델을 만들어보겠습니다. Before Transformer

LighthouseDec 12, 2023

Langchain이란?

Langchain은 방대한 양의 텍스트 데이터를 학습하여 텍스트를 생성하고, 언어를 번역하고, 다양한 종류의 창의적인 콘텐츠를 작성하는 등 인간과 같은 방식으로 언어를 처리할 수 있습니다. Langchain은 다음과 같은 특징을 가지고 있습니다. 대규모 데이터 학습: Langchain은 수십억 개의 단어로 구성된 데이터 세트에서 학습합니다. 이러한 대규모 데이터 세트는 Langchain이 인간 언어의 복잡성을 이해하고 학습하는 데 도움이 됩니다. 텍스트 생성: Langchain은 텍스트를 생성할 수 있습니다. 예를 들어, Langchain은 시, 코드, 대본, 음악 작품, 이메일, 편지 등과 같은 다양한 종류의 창의적인 텍스트 형식을 생성할 수 있습니다. 언어 번역: Langchain은 언어를 번역할 수 있습니다. 예를 들어, Langchain은 영어에서 한국어로, 한국어에서 영어로 등 다양한 언어 간의 번역을 수행할 수 있습니다. Langchain의 응용 방안 Langchain은 다양한 분야에서 응용될 수 있습니다. 다음은 Langchain의 대표적인 응용 방안입니다. 챗봇: Langchain은 챗봇에 사용될 수 있습니다. 챗봇은 사람과 대화할 수 있는 컴퓨터 프로그램입니다. Langchain은 챗봇이 더 자연스럽고 유익한 대화를 할 수 있도록 합니다. 창의적인 콘텐츠 생성: Langchain은 창의적인 콘텐츠를 생성하는 데 사용될 수 있습니다. 예를 들어, Langchain은 시, 코드, 대본, 음악 작품, 이메일, 편지 등과 같은 다양한 종류의 창의적인 텍스트 형식을 생성할 수 있습니다. 자연어 처리: Langchain은 자연어 처리(NLP) 분야에서 사용될 수 있습니다. NLP는 컴퓨터가 인간 언어를 이해하고 처리할 수 있도록 하는 분야입니다. Langchain은 NLP의 다양한 작업에 사용될 수 있습니다. 예를 들어, Langchain은 텍스트를 분류하고, 텍스트에서 정보를 추출하고, 텍스트를 요약하는 데 사용될 수 있습니다.

LighthouseDec 12, 2023

LLM을 쉽게 인더스트리 내에서 연구하고 적용하는 방법

대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터를 학습하여 텍스트를 생성하고, 언어를 번역하고, 다양한 종류의 창의적인 콘텐츠를 작성하는 등 인간과 같은 방식으로 언어를 처리할 수 있는 기계 학습 모델입니다. LLM은 다양한 분야에서 활용될 수 있는 잠재력을 가지고 있지만, 인더스트리 내에서 연구하고 적용하는 것은 쉽지 않은 일입니다. 인더스트리 내에서 LLM을 연구하고 적용하는 데는 다음과 같은 어려움이 있습니다. 데이터셋 확보: LLM을 훈련하기 위해서는 방대한 양의 텍스트 데이터가 필요합니다. 인더스트리에서는 이러한 데이터를 확보하는 것이 쉽지 않습니다. 컴퓨팅 자원: LLM을 훈련하는 데는 많은 컴퓨팅 자원이 필요합니다. 인더스트리에서는 이러한 자원을 확보하기가 어렵습니다. 전문 지식: LLM을 연구하고 적용하기 위해서는 전문적인 지식이 필요합니다. 인더스트리에서는 이러한 지식을 가진 인력을 확보하기가 어렵습니다. 이러한 어려움을 극복하기 위해서는 다음과 같은 방법을 고려할 수 있습니다. 데이터셋 공유: 인더스트리 내에서 LLM을 연구하고 적용하기 위해서는 데이터셋을 공유하는 것이 중요합니다. 이를 통해 데이터셋 확보의 어려움을 해결할 수 있습니다. 클라우드 컴퓨팅: 클라우드 컴퓨팅을 활용하면 컴퓨팅 자원의 어려움을 해결할 수 있습니다. 교육 및 훈련: LLM에 대한 교육 및 훈련을 제공하여 전문 지식의 어려움을 해결할 수 있습니다. 이러한 방법을 활용하면 인더스트리 내에서도 LLM을 연구하고 적용하는 것이 쉬워질 것입니다. 데이터셋 공유 데이터셋 공유는 인더스트리 내에서 LLM을 연구하고 적용하기 위한 가장 중요한 방법 중 하나입니다. 인더스트리 내에서 데이터셋을 공유하면 다음과 같은 이점을 얻을 수 있습니다.

LighthouseDec 12, 2023

대규모 언어 모델(LLM)이란?

대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터를 학습하여 텍스트를 생성하고, 언어를 번역하고, 다양한 종류의 창의적인 콘텐츠를 작성하는 등 인간과 같은 방식으로 언어를 처리할 수 있는 기계 학습 모델입니다. LLM은 다음과 같은 특징을 가지고 있습니다. 대규모 데이터 학습: LLM은 수백만에서 수십억 개의 단어로 구성된 데이터 세트에서 학습합니다. 이러한 대규모 데이터 세트는 LLM이 인간 언어의 복잡성을 이해하고 학습하는 데 도움이 됩니다. 텍스트 생성: LLM은 텍스트를 생성할 수 있습니다. 예를 들어, LLM은 시, 코드, 대본, 음악 작품, 이메일,편지 등과 같은 다양한 종류의 창의적인 텍스트 형식을 생성할 수 있습니다. 언어 번역: LLM은 언어를 번역할 수 있습니다. 예를 들어, LLM은 영어에서 한국어로, 한국어에서 영어로 등 다양한 언어 간의 번역을 수행할 수 있습니다. 질문 응답: LLM은 질문에 답변할 수 있습니다. 예를 들어, LLM은 "파리의 수도는 어디입니까?"와 같은 질문에 답변할 수 있습니다. LLM은 다양한 분야에서 활용되고 있습니다. 다음은 LLM의 대표적인 활용 사례입니다. 자연어 처리: LLM은 자연어 처리(NLP) 분야에서 사용됩니다. NLP는 컴퓨터가 인간 언어를 이해하고 처리할 수 있도록 하는 분야입니다. LLM은 NLP의 다양한 작업에 사용될 수 있습니다. 예를 들어, LLM은 텍스트를 분류하고, 텍스트에서 정보를 추출하고, 텍스트를 요약하는 데 사용될 수 있습니다. 챗봇: LLM은 챗봇에 사용됩니다. 챗봇은 사람과 대화할 수 있는 컴퓨터 프로그램입니다. LLM은 챗봇이 더 자연스럽고 유익한 대화를 할 수 있도록 합니다. 창의적인 콘텐츠 생성: LLM은 창의적인 콘텐츠를 생성하는 데 사용됩니다. 예를 들어, LLM은 시, 코드, 대본, 음악 작품, 이메일, 편지 등과 같은 다양한 종류의 창의적인 텍스트 형식을 생성하는 데 사용될 수 있습니다. RAG 방식 LLM은 다음과 같은 방식으로 작동합니다. LLM은 입력 텍스트를 단어와 기호로 분해합니다. LLM은 분해된 단어와 기호를 사용하여 텍스트의 의미를 이해합니다. LLM은 텍스트의 의미를 바탕으로 출력 텍스트를 생성합니다. LLM의 정확성과 성능을 향상시키기 위해 다양한 방법이 연구되고 있습니다. 그 중 하나는 RAG 방식입니다. RAG 방식은 LLM이 텍스트를 이해하는 방식을 개선하는 방식입니다. RAG 방식은 텍스트를 다음과 같이 세 가지 구성 요소로 분해합니다. 관계(Relations): 텍스트의 주제와 주제 간의 관계를 나타냅니다. 예를 들어, "김철수는 서울에 사는 학생입니다."라는 문장에서 "서울에 사는"은 "김철수"와 "학생"의 관계를 나타냅니다. 주제(Argument): 텍스트의 주제를 나타냅니다. 예를 들어, "김철수는 서울에 사는 학생입니다."라는 문장에서 "김철수"와 "학생"은 모두 주제입니다.

LighthouseDec 7, 2023

강화학습, 초보자도 쉽게 이해하기

안녕하세요, 여러분! 오늘은 강화학습에 대해 간단히 소개해드리려고 합니다. 강화학습은 인공지능 분야의 한 분야로, 에이전트가 환경과 상호 작용하면서 보상을 최대화하는 방법을 학습하는 방법입니다. 강화학습은 게임, 로봇 공학, 자율주행 등 다양한 분야에서 활용되고 있습니다. 예를 들어, 게임에서 강화학습을 사용하면 에이전트가 스스로 게임을 배우고 최상의 전략을 개발할 수 있습니다. 로봇 공학에서 강화학습을 사용하면 로봇이 스스로 환경을 탐색하고 안전하게 이동할 수 있습니다. 자율주행에서 강화학습을 사용하면 자율주행 자동차가 스스로 교통 상황을 판단하고 안전하게 주행할 수 있습니다. 강화학습은 다음과 같은 두 가지 기본 요소로 구성됩니다. 에이전트: 환경과 상호 작용하는 주체 보상: 에이전트의 행동을 평가하는 지표 에이전트는 환경에서 정보를 수집하고, 이를 바탕으로 행동을 결정합니다. 에이전트의 행동에 따라 보상이 주어지며, 에이전트는 보상을 통해 자신의 행동을 개선합니다. 강화학습은 복잡한 알고리즘을 사용하는 경우가 많아 초보자에게는 다소 어려울 수 있습니다. 하지만 기본 개념을 이해하면 어렵지 않게 접근할 수 있습니다. 강화학습의 기본 개념을 다음과 같이 정리할 수 있습니다. 에이전트는 환경과 상호 작용하면서 보상을 최대화하는 방법을 학습합니다. 보상은 에이전트의 행동을 평가하는 지표입니다. 에이전트는 보상을 통해 자신의 행동을 개선합니다. 강화학습에 대해 더 자세히 알고 싶으신 분들은 다음과 같은 자료를 참고하시기 바랍니다.

LighthouseDec 6, 2023

강화학습과 LLM - 1.2 가치 기대 함수

벨만 기대 방정식 마르코프 결정 과정 문제를 풀기 위해 상태와 행동의 판단 기준을 만든 식 ex) 시험 하루 전에 도서관에 있는 상태 ex) 시험 하루 전에 도서관에서 잠을 자는 행동의 상태 벨만 최적 방정식 가치 기대 함수 전이 확률과 보상 값이 알려져 있는 경우 아래 방법 수렴 보장. 가치 이터레이션 Max 값 이용 (벨만 최적 방정식) 목표 지점의 보상이 0이고 매 time-step에 마다 -1 감가율 = 1 출처: https://sumniya.tistory.com/10 가치 이터레이션 V_1 1행 2열 가치 계산 : -1 + max([0,0,0,0]) = -1 즉각적인 보상 -1 에 max(v) 가 모두 0 이었으므로 모두 -1 이 됨. V_2 1행 2열 가치 계산 : -1 + max([0,-1,-1,-1]) = -1 3행 3열 가치 계산 : -1 + max([-1,-1,-1,-1]) = -2 결과

LighthouseDec 6, 2023

강화학습과 LLM - 1.1 강화학습이란?

1.1 강화학습이란? 적절한 보상체계를 활용해 에이전트가 올바른 행동을 할 수 있도록 에이전트 행동을 제어하는 정책을 찾아내는 최적화 기법 목표는 보상을 최대화 하는 것으로 표현 됨. 구성요소로는 에이전트, 환경, 행동, 보상, 상태, 정책이 있음 머신 러닝 - 컴퓨터가 데이터를 통해 학습 지도 학습 – 레이블이 지정된 데이터를 통해 함수를 학습하는 것 비지도 학습 – 레이블이 없는 데이터로부터 패턴이나 구조를 찾아내는 과정 강화 학습 – 에이전트가 환경과 상호작용하며 시행착오를 통해 학습 최근에는 대부분 딥러닝으로 구현 되는 추세 상호작용 → 순차적 의사 결정 경우의 수가 너무 많아지는 문제점. 마르코브 속성(MP) 상호작용 문제를 단순화하기 위해 현재 상태 는 예측에 필요한 모든 정보를 가지고 있으므로 과거 정보를 기억하고 있을 필요 없다고 가정하는 속성 ex) 100 년 전의 날씨는 내일 날씨 예측에 필요하지 않음. 마르코프 결정 과정(MDP) 마르코프 속성 가정 하에, 각 의사 결정 단계에서 행동과 상태에 따른 보상을 모델링 한것 강화학습은 MDP 하에서 이루어짐. S : 상태(State) A : 행동(Action) P : 전이 확률 R : 보상 γ : 감가율

Lighthouse

Lighthouse AI

Improving Text Embeddings with Large Language Models

Lighthouse

Aug 16, 20243m

논문 개요

논문명: Improving Text Embeddings with Large Language Models

링크 : https://arxiv.org/pdf/2401.00368

출간일 : 2023.12

출간 학회 : ACL

저자 : Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei

소속 : Microsoft Corporation

인용 수 : 51

코드 : https://github.com/microsoft/unilm/tree/master/e5

Abstract

합성 데이터와 1K 학습 스텝보다 적은 스텝을 사용하여 높은 퀄리티의 텍스트 임베딩 얻는 방법 소개

기존 방법은 많은 양의 weakly-supervised text pair로 프리트레인을 하고 라벨링 된 데이터로 파인튜닝을 해야했음

proprietary(독자적) LLM을 활용하여 93개 언어에 걸쳐 임베딩 태스크를 위한 합성 데이터 생성

오픈 소스 디코더-only LLM을 합성 데이터로 standard contrastive loss로 파인튜닝

라벨링 데이터를 하나도 사용하지 않고 좋은 성능을 보임

합성 데이터와 라벨링 데이터를 섞어 파인튜닝을 더 진행하여 BEIR와 MTEB에서 sota 달성

Introduction

이전 연구들(Glove 등)에서 사전 학습된 단어 임베딩의 가중 평균이 semantic similarity를 측정하는 강력한 기준임을 보여줬지만, 이 방법들은 자연어의 풍부한 맥락 정보를 포착하지 못함(토큰 간의 관계 파악)

프리트레인 언어 모델 등장 이후

NLI 데이터셋에 BERT를 파인튜닝한 예시들: Sentence-BERT, SimCSE

BGE, E5: multi-stage 학습 패러다임으로, 수십억 개의 weakly-supervised 텍스트 쌍에 대해 사전 학습 후 고품질 라벨 데이터셋에 대해 파인튜닝

기존 multi-stage 접근법의 단점

대량의 관련 쌍을 만들기 위해 복잡한 다단계 학습 파이프라인이 많은 엔지니어링 노력을 요구

대부분의 기존 방법은 BERT 스타일의 인코더를 backbone으로 사용하여 더 나은 LLM 관련 기술의 최근 발전을 무시(예를 들어 context extention)

기존 접근법의 한계 극복

다양한 텍스트 임베딩 작업을 위해 93개 언어로 합성 데이터를 생성하는 독자적인 LLM 사용, 두 단계 프롬프트 전략

LLM이 후보 작업 풀을 브레인스토밍하도록 프롬프팅

주어진 작업에 따라 데이터를 생성하도록 프롬프팅

web-scale 데이터에 대해 광범위하게 사전 학습된 강력한 오픈 소스 LLM 파인튜닝, LLM에서는 BERT 모델에 중요하다고 입증된 contrastive 사전 학습이 별로 이점이 없음

E5-Mistral 특징

Mistral-7B: 합성 데이터로만 파인튜닝해도 BEIR 및 MTEB 벤치마크에서 좋은 성능

합성 데이터와 라벨 데이터 혼합으로 파인튜닝한 결과, 이전 방법을 큰 폭으로 능가하는 새로운 최고 성능(+2%) 달성, sota 달성

1000 스텝 이하 소요

위치 임베딩의 회전 기준을 변경하여 입력 토큰을 최대 32k까지 확장 가능

고자원 언어에서 탁월한 성능

Method

Synthetic Data Generation

다양성은 의미 검색, 텍스트 유사성, 클러스터링 등 다양한 작업에서 성능을 발휘할 수 있는 강력한 텍스트 임베딩을 개발하는 데 필수적, 다양한 인공 데이터를 생성하기 위해 임베딩 작업을 여러 그룹으로 분류하는 간단한 분류 체계를 제안하고 각 그룹에 다른 프롬프트 템플릿을 적용

Asymmetric Tasks

의미론적으로 관련이 있지만 서로의 요약은 아닌 쿼리와 문서의 쌍

four subgroups: short-long match, long-short match, short-short match, and long-long match

두 단계의 프롬프트 템플릿을 설계

LLMs가 먼저 작업 목록을 브레인스토밍

작업 정의에 따라 구체적인 예제를 생성

Symmetric Tasks

표면 형식(surface form)은 다르지만 의미가 유사한 쿼리와 문서

monolingual semantic textual similarity (STS) & bitext retrieval(다른 언어 쌍)

프롬프트와 합성 데이터의 다양성을 높이기 위해 각 프롬프트 템플릿에 placeholder 포함

Experiments

500K 샘플, 150K의 독특한 instruction, 93개국어, 총 토큰 180M

Model Fine-tuning and Evaluation

프리트레인 된 Mistral-7b 체크포인트를 1 epoch 동안 파인튜닝, RankLLaMA 학습 방법 사용, rank 16 LoRA

GPU 메모리 줄이기 위해 gradient checkpointing, mixed precision, DeepSpeed ZeRO-3 사용

합성 데이터와 13개의 공개 데이터셋을 사용, 샘플링 후 약 1.8M 개

RankLLaMA: 쿼리와 후보 문서를 인풋으로 함께 전달하고 모델이 문서가 쿼리에 얼마나 연관성이 있는지에 대한 스코어 출력

Main Results

생성 언어 모델과 텍스트 임베딩은 둘 다 자연어의 깊은 이해를 요함, robust한 LLM은 학습 데이터를 직접 생성하고 가벼운 파인튜닝으로 임베딩 모델 전환 가능할 것

Multilingual Retrieval

low-resource 언어는 mE5보다 좋지 않은데, Mistral-7B가 영어 위주로 학습되어서 그런 듯함

cross-lingual retrieval도 자료 많은 언어 위주로 잘 함

Analysis

Is Contrastive Pre-training Necessary?

XLM-R은 프리트레인을 했을 때 성능이 더 좋지만, Mistral의 경우 프리트레인이 성능에 영향을 거의 끼치지 않음

광범위한 auto-regressive 프리트레인을 통해 LLM은 우수한 텍스트 표현을 획득할 수 있으며, 이를 효과적인 임베딩 모델로 변환하는 데 최소한의 파인튜닝 필요

Extending to Long Text Embeddings

personalized passkey retrieval 태스크로 평가

RoPE rotation base와 sliding window size를 변형시켜 성능 비교

컨텍스트 길이가 길어지면 정확도가 떨어짐

RoPE rotation base를 10^5로 바꾸면 32k 토큰에서도 90%의 정확도를 보이고, 짧은 컨텍스트 성능이 떨어짐

Analysis of Training Hyperparameters

results under different configurations

Mistral이 Llama보다 성능 우수, instruction 추가하면 성능 좋아짐

Conclusion

LLM을 활용하여 텍스트 임베딩의 성능을 substantially enhance 가능

proprietary(소유권이 있는)한 GPT-4 같은 LLM을 프롬프팅하여 여러 언어로 지시가 가능한 다양한 합성 데이터 생성

Mistral 모델의 훌륭한 언어 이해 능력과 합쳐져 좋은 임베딩 모델 생성

기존 multi-stage 방법보다 더 효율적인 학습 과정, 프리트레인 필요 없음

Appendix

Hyperparameters for Fine-tuning

batch size 2048

1 hard negative for each query-document pair

18 hours on 32 V100 GPUs

maximum sequence length 512

LoRA adapters to all linear layers, total of 42M trainable parameters

Subscribe to 'Lighthouse'

Welcome to 'Lighthouse'!
By subscribing to my site, you'll be the first to receive notifications and emails about the latest updates, including new posts.
Join SlashPage and subscribe to 'Lighthouse'!