每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

EmbeddingGemma:强大而轻量级的文本表示

Created by
  • Haebom

作者

恩里克·谢克特·维拉、萨希尔·杜阿、张彪、丹尼尔·萨尔茨、瑞安·穆林斯、辛德胡·拉古拉姆·潘亚姆、萨拉·斯穆特、伊夫泰哈·奈姆、乔·邹、陈飞扬、丹尼尔·塞尔、爱丽丝·利萨克、蔡敏、卢卡斯·冈萨雷斯、奥马尔·桑塞维罗、格伦·卡梅伦、伊恩·巴兰坦、凯特·布莱克、陈凯峰、王伟毅、李哲、格斯Martins、Jinhyuk Lee、Mark Sherwood、Juying Ji、Renjie Wu、Jingxiao Cheng、Jyotinder Singh、Abheesht Sharma、Divyashree Sreepathihalli、Aashi Jain、Adham Elarabawy、AJ Co、Andreas Doumanoglou、Babak Samari、Ben Hora、Brian Potetz、Dahun Kim、Enrique Alfonseca、Fedor Moiseev、Feng Han、弗兰克·帕尔马·戈麦斯、古斯塔沃Hern Andez Abrego、Hesen 张、Hui Hui、Jay Han、Karan Gill、Ke Chen、Koert Chen、Madhuri Shanbhogue、Michael Boratko、Paul Suganthan、Sai Meher Karthik Duddu、Sandeep Mariserla、Setareh Ariafar、Shanfeng 张、Shijie 张、Simon Baumgartner、Sonam Goenka、Steve Qiu、Tanmaya Dabral、Trevor Walker、Vikram Rao、 Waleed Khawaja、周文磊、任晓琪、 Ye Warkentin、Armand Joulin、Tom Duerig、Mojtaba Seyedhosseini

大纲

我们提出了 EmbeddingGemma,这是一个基于 Gemma 3 语言模型的轻量级开放文本嵌入模型。该模型通过编码器-解码器初始化和几何嵌入蒸馏,充分利用大型模型的知识,并通过扩展正则化增强模型的鲁棒性和表达能力。我们通过合并来自各种优化组合的检查点来确保泛化性能。它在 MTEB 基准测试中展现出卓越的性能,在参数少于 5 亿的模型中取得了最高性能。即使进行模型权重量化或嵌入输出截断,也能保持良好的性能,使其适用于低延迟和高吞吐量的用例。

Takeaways, Limitations

Takeaways:
以低成本提供高性能嵌入模型。
适用于设备上应用程序等低延迟和高吞吐量环境。
通过开源模型为研究激活做出贡献。
Limitations:
论文中未指定具体的 Limitations(例如,特定任务的性能下降、数据偏差等)。
研究范围仅限于模型的性能评估和技术方面。
👍