Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Training Sparse Mixture Of Experts Text Embedding Models

Created by
  • Haebom

저자

Zach Nussbaum, Brandon Duderstadt

개요

Transformer 기반 텍스트 임베딩 모델은 MIRACL 및 BEIR과 같은 벤치마크에서 매개변수 수를 늘림으로써 성능을 향상시켰지만, 추론 지연 시간 및 메모리 사용량 증가와 같은 배포 문제를 야기했습니다. 특히 RAG(Retrieval-Augmented Generation) 애플리케이션에서는 대규모 모델의 메모리 요구 사항 증가로 데이터셋 수용량이 제한되고, 지연 시간 증가로 쿼리 시간 성능이 직접적으로 영향을 받습니다. 본 논문에서는 최초의 범용 MoE(Mixture of Experts) 텍스트 임베딩 모델인 Nomic Embed v2를 소개합니다. Nomic Embed v2는 동일한 매개변수 클래스의 모델보다 단일 언어 및 다국어 벤치마크 모두에서 우수한 성능을 보이며, 두 배 크기의 모델과도 경쟁력 있는 성능을 유지합니다. 모든 코드, 모델 및 평가 데이터를 오픈 소스로 공개하여 재현성을 확보했습니다.

시사점, 한계점

시사점: MoE 아키텍처를 텍스트 임베딩에 성공적으로 적용하여 대규모 모델의 효율성 문제를 해결했습니다. 동일 매개변수 크기의 모델 대비 우수한 성능을 달성했으며, 코드와 모델을 오픈소스로 공개하여 재현성을 높였습니다.
한계점: 본 논문에서 제시된 Nomic Embed v2의 성능은 여전히 매개변수가 두 배인 모델과 비교되었을 때 경쟁력 있는 수준이며, 절대적인 성능 면에서는 여전히 한계가 있을 수 있습니다. MoE 아키텍처의 적용에 따른 추가적인 복잡성이 존재할 수 있습니다.
👍