Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EmbeddingGemma: Powerful and Lightweight Text Representations

Created by
  • Haebom

저자

Henrique Schechter Vera, Sahil Dua, Biao Zhang, Daniel Salz, Ryan Mullins, Sindhu Raghuram Panyam, Sara Smoot, Iftekhar Naim, Joe Zou, Feiyang Chen, Daniel Cer, Alice Lisak, Min Choi, Lucas Gonzalez, Omar Sanseviero, Glenn Cameron, Ian Ballantyne, Kat Black, Kaifeng Chen, Weiyi Wang, Zhe Li, Gus Martins, Jinhyuk Lee, Mark Sherwood, Juyeong Ji, Renjie Wu, Jingxiao Zheng, Jyotinder Singh, Abheesht Sharma, Divyashree Sreepathihalli, Aashi Jain, Adham Elarabawy, AJ Co, Andreas Doumanoglou, Babak Samari, Ben Hora, Brian Potetz, Dahun Kim, Enrique Alfonseca, Fedor Moiseev, Feng Han, Frank Palma Gomez, Gustavo Hernandez Abrego, Hesen Zhang, Hui Hui, Jay Han, Karan Gill, Ke Chen, Koert Chen, Madhuri Shanbhogue, Michael Boratko, Paul Suganthan, Sai Meher Karthik Duddu, Sandeep Mariserla, Setareh Ariafar, Shanfeng Zhang, Shijie Zhang, Simon Baumgartner, Sonam Goenka, Steve Qiu, Tanmaya Dabral, Trevor Walker, Vikram Rao, Waleed Khawaja, Wenlei Zhou, Xiaoqi Ren, Ye Xia, Yichang Chen, Yi-Ting Chen, Zhe Dong, Zhongli Ding, Francesco Visin, Gael Liu, Jiageng Zhang, Kathleen Kenealy, Michelle Casbon, Ravin Kumar, Thomas Mesnard, Zach Gleicher, Cormac Brick, Olivier Lacombe, Adam Roberts, Qin Yin, Yunhsuan Sung, Raphael Hoffmann, Tris Warkentin, Armand Joulin, Tom Duerig, Mojtaba Seyedhosseini

개요

Gemma 3 언어 모델을 기반으로 하는 경량 오픈 텍스트 임베딩 모델인 EmbeddingGemma를 소개합니다. 이 모델은 인코더-디코더 초기화 및 기하학적 임베딩 증류를 통해 대형 모델의 지식을 활용하고, spread-out 정규화를 통해 모델의 견고성과 표현력을 향상시켰습니다. 다양한 최적화 혼합의 체크포인트를 병합하여 일반화 성능을 보장했습니다. MTEB 벤치마크에서 뛰어난 성능을 보여주며, 특히 5억 미만의 파라미터를 가진 모델 중 최고 성능을 달성했습니다. 모델 가중치 양자화 또는 임베딩 출력 잘림에도 성능이 유지되어, 저지연 및 고처리량 사용 사례에 적합합니다.

시사점, 한계점

시사점:
저비용으로 고성능 임베딩 모델 제공.
온디바이스 애플리케이션 등 저지연 및 고처리량 환경에 적합.
오픈 소스 모델로 연구 활성화 기여.
한계점:
구체적인 한계점은 논문에 명시되지 않음 (예: 특정 task에서의 성능 저하, 데이터 편향 등).
연구의 범위가 모델의 성능 평가와 기술적 측면에 국한됨.
👍