Embedding

Embedding Model과 관련된 스터디 위주로 정리
[Paper] ModerBERT
최근 올라오는 임베딩 모델 중 ModernBERT 구조 기반으로 학습된 모델들이 많다. 이에따라, ModernBERT 모델의 논문을 리뷰를 해보자 (11/10) Code Review는 아직 진행 중 TL;DR 기존 BERT보다 512 → 8192 input token으로 증가 RoPE (Rotary Positional Encoding) GeGLU, Normalization, Bias Term Disabling, Deep-Narrow, Alternating Attention, Flash Attention 2 / 3, Unpadding 등 최신 기법들을 사용해서 아키텍쳐를 구성함 Alternating Attention으로 로컬-글로벌 어텐션 2조 개의 토큰으로 훈련함 (근데 영어 데이터로만 했음) 1. 논문이 다루는 Task GLUE, IR, Code IR IR도 Single-Vector, Multi-Vector를 테스트하고, MLDR (long document)를 평가함 2. 기존 연구 한계 가장 중요한건, 컨텍스트 길이 제한 (512), 비효율적인 아키텍처 학습 효율만 개선 / 검색 성능에 초점.. 이런식으로 한 부분에만 초점을 뒀음 추가로, 데이터가 너무 구식이라 코드 과제에서 한계가 있다함 3. 제안 방법론: Main Idea Architectural Improvements Modern Transformer RoPE 위치 정보 처리랑 더 많은 컨텍스트를 처리하기 위함
  • P
    paper Lee
Ko-MTEB 따라잡기 (작성 중)
학습 공부를 제대로 시작하기전에, 기존 모델들 부터 재현해보면서 Evaluation하는 것을 시작해보려고 한다. (회사에서 이걸 과연.. 지켜봐줄지는 모르겠지만...) 최종 목표는 Embedding/Rerank 모델을 pre-train, fine-tune, evaluation까지, 그리고 HF에도 올려보고.. 솔직히 성능 향상을 보진 못할 것 같다. 데이터 수집부터 정제, 학습까지 다 혼자서 진행해야할 것 같아서 이게 내가 잘 할 수 있는 것인진 모르겠다. 최선을 다해보자 사실 많은 사람들이 MTEB 벤치마크를 커스텀한 코드들을 많이 공유했다. 하지만 왜 직접하려고하냐면, 내 코드가 아니기 때문이다.. 내 코드가 아니니까 제대로 이해가 안되고, 평가를 진행하다보면 어떻게 학습을 해야하는지, 어떤 Output이 나오고를 알 수 있을거라 생각했다. 최종 목표는 ColBERT MultiVector Model Evaluation까지 생각하고 있다. (MUVERA 포함) 따라서, Ko-MTEB, 재구현한다! MTEB Massive Text Embedding Benchmark (MTEB) 텍스트 임베딩 모델의 평가 한계를 극복 → 8개 Task를 포괄하는 벤치마크 제시 latency / emb size와의 trade-off 분석까지도 가능 회사에서 가장 집중하고 있는 부분은 RAG부분이기에, 이 중 우선 Retrieval에 대한 평가에 대해 집중적으로 진행하려고 한다. (Retrieval은 nDCG@k를 기반으로 평가하려고한다) Retrieval task를 IR (information Retrieval) 이라고도 한다 Benchmark Code 정말 감사하게도 많은 분들께서 K-MTEB Evaluation과 관련되어 정보를 공유해주셨고, 아래 내용들을 참조했다. 기본적으로 SBERT기반의 모델들은 바로 사용할 수 있다. 하지만 개별적으로 만든 모델이라면 Encoder Interface를 사용해서 상속받아 구현해야한다. Query Fix가 있는 경우 PromptType 에 맞춰서 query, passage를 지정해주어야 작동한다고 한다.
  • P
    paper Lee
Embedding 학습을 위한 공부
공부해야할 것들을 적어두기 위한 페이지입니다. 더 봐야하거나 잘못된 부분이 있다면 언제든지 태클걸어주세요! Model & Train Sparse BM25 BM25F BM42 Cross-Encoder (Rerank) How..? Bi-Encoder (Embedding) BERT RoBERTa XLM-RoBERTa (bge3 계열 모델은 위 모델 참조함) DeBERTa ColBERT What is Late Interaction? Multi Vector with MUVERA (FDE) ModernBERT SKT A.X Encoder E5, BGE-m3, mE5 Hybrid?
  • P
    paper Lee