Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MMTEB: Massive Multilingual Text Embedding Benchmark

Created by
  • Haebom

저자

Kenneth Enevoldsen, Isaac Chung, Imene Kerboua, Marton Kardos, Ashwin Mathur, David Stap, Jay Gala, Wissam Siblini, Dominik Krzeminski, Genta Indra Winata, Saba Sturua, Saiteja Utpala, Mathieu Ciancone, Marion Schaeffer, Gabriel Sequeira, Diganta Misra, Shreeya Dhakal, Jonathan Rystr{\o}m, Roman Solomatin, Omer \c{C}a\u{g}atan, Akash Kundu, Martin Bernstorff, Shitao Xiao, Akshita Sukhlecha, Bhavish Pahwa, Rafa{\l} Poswiata, Kranthi Kiran GV, Shawon Ashraf, Daniel Auras, Bjorn Pluster, Jan Philipp Harries, Loic Magne, Isabelle Mohr, Mariya Hendriksen, Dawei Zhu, Hippolyte Gisserot-Boukhlef, Tom Aarsen, Jan Kostkan, Konrad Wojtasik, Taemin Lee, Marek \v{S}uppa, Crystina Zhang, Roberta Rocca, Mohammed Hamdy, Andrianos Michail, John Yang, Manuel Faysse, Aleksei Vatolin, Nandan Thakur, Manan Dey, Dipam Vasani, Pranjal Chitale, Simone Tedeschi, Nguyen Tai, Artem Snegirev, Michael Gunther, Mengzhou Xia, Weijia Shi, Xing Han Lu, Jordan Clive, Gayatri Krishnakumar, Anna Maksimova, Silvan Wehrli, Maria Tikhonova, Henil Panchal, Aleksandr Abramov, Malte Ostendorff, Zheng Liu, Simon Clematide, Lester James Miranda, Alena Fenogenova, Guangyu Song, Ruqiya Bin Safi, Wen-Ding Li, Alessia Borghini, Federico Cassano, Hongjin Su, Jimmy Lin, Howard Yen, Lasse Hansen, Sara Hooker, Chenghao Xiao, Vaibhav Adlakha, Orion Weller, Siva Reddy, Niklas Muennighoff

개요

본 논문은 기존의 제한적인 언어, 도메인, 작업 다양성으로 인해 제한된 과제 집합에서만 평가되는 텍스트 임베딩의 문제점을 해결하기 위해, 250개 이상의 언어에 걸쳐 500개 이상의 품질 관리된 평가 과제를 포함하는 대규모 커뮤니티 기반 확장판인 MMTEB(Massive Multilingual Text Embedding Benchmark)를 소개합니다. MMTEB는 지시사항 따르기, 장문 문서 검색, 코드 검색과 같은 다양하고 어려운 새로운 과제들을 포함하며, 현재까지 임베딩 모델을 위한 가장 큰 다국어 평가 과제 모음입니다. 이를 이용하여 여러 다국어 벤치마크를 개발하고 대표적인 모델들을 평가한 결과, 수십억 개의 매개변수를 가진 대규모 언어 모델(LLM)이 특정 언어 하위 집합과 작업 범주에서 최첨단 성능을 달성할 수 있지만, 공개적으로 사용 가능한 최고 성능 모델은 5억 6천만 개의 매개변수만 가진 multilingual-e5-large-instruct임을 발견했습니다. 접근성을 높이고 계산 비용을 줄이기 위해 작업 간 상관 관계를 기반으로 하는 새로운 다운샘플링 방법을 도입하여 상대적인 모델 순위를 유지하면서 다양한 선택을 보장합니다. 또한, 하드 네거티브 샘플링을 통해 검색과 같은 작업을 최적화하여 더 작지만 효과적인 분할을 생성합니다. 이러한 최적화를 통해 계산 요구량을 크게 줄이는 벤치마크를 도입할 수 있었습니다. 예를 들어, 새롭게 도입된 제로샷 영어 벤치마크는 전체 규모 버전과 유사한 순위를 유지하지만 계산 비용은 훨씬 적습니다.

시사점, 한계점

시사점:
MMTEB는 다양한 언어와 과제를 포괄하는 대규모 다국어 텍스트 임베딩 벤치마크를 제공하여 기존 벤치마크의 한계를 극복합니다.
다양한 유형의 과제 (지시사항 따르기, 장문 문서 검색, 코드 검색 등)를 포함하여 텍스트 임베딩 모델의 포괄적인 평가를 가능하게 합니다.
매개변수 수가 적은 모델이 대규모 모델과 비교해 경쟁력 있는 성능을 보일 수 있음을 보여줍니다.
작업 간 상관 관계를 기반으로 하는 다운샘플링 방법 및 하드 네거티브 샘플링을 통한 최적화 기법을 제시하여 계산 비용을 효과적으로 절감할 수 있음을 보여줍니다.
한계점:
MMTEB의 규모가 크지만, 모든 가능한 언어와 과제를 완벽하게 포괄하지 못할 수 있습니다.
평가에 사용된 모델의 대표성에 대한 논의가 부족할 수 있습니다. 더욱 다양한 모델들을 포함하는 추가 연구가 필요할 수 있습니다.
다운샘플링 방법이 모델 순위를 완벽하게 보존하지 못할 가능성이 있습니다. 다운샘플링 과정의 영향에 대한 추가적인 분석이 필요할 수 있습니다.
👍