Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Created by
  • Haebom

저자

Michael Gunther, Saba Sturua, Mohammad Kalim Akram, Isabelle Mohr, Andrei Ungureanu, Bo Wang, Sedigheh Eslami, Scott Martens, Maximilian Werk, Nan Wang, Han Xiao

개요

jina-embeddings-v4는 38억 개의 파라미터를 가진 다중 모달 임베딩 모델로, 새로운 아키텍처를 통해 텍스트와 이미지 표현을 통합합니다. 단일 벡터와 다중 벡터 임베딩을 모두 지원하며, 후기 상호작용 방식을 사용합니다. 다양한 검색 시나리오(쿼리-문서 검색, 의미적 텍스트 유사도, 코드 검색 등)에서 성능을 최적화하기 위해 작업별 저랭크 적응(LoRA) 어댑터를 통합합니다. 포괄적인 평가 결과, jina-embeddings-v4는 단일 모달 및 교차 모달 검색 작업 모두에서 최첨단 성능을 달성하며, 특히 표, 차트, 다이어그램 및 혼합 미디어 형식과 같은 시각적으로 풍부한 콘텐츠 처리에 강점을 보입니다. 시각적으로 풍부한 이미지 검색을 위한 새로운 벤치마크인 Jina-VDR도 함께 소개합니다.

시사점, 한계점

시사점:
38억 파라미터의 다중 모달 임베딩 모델로 텍스트와 이미지를 효과적으로 통합.
단일 벡터 및 다중 벡터 임베딩 지원으로 다양한 검색 시나리오 적용 가능.
LoRA 어댑터를 통해 다양한 작업에 대한 성능 최적화 가능.
시각적으로 풍부한 콘텐츠 처리에 강점을 보이며, 최첨단 성능 달성.
시각적으로 풍부한 이미지 검색을 위한 새로운 벤치마크 Jina-VDR 제공.
한계점:
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족함.
Jina-VDR 벤치마크의 자세한 내용과 신뢰성에 대한 추가 정보 필요.
LoRA 어댑터의 효율성 및 일반화 성능에 대한 추가 분석 필요.
👍