每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

NExT-OMNI:面向具有离散流匹配的任意全模态基础模型

Created by
  • Haebom

作者

罗润、夏晓波、王璐、陈龙泽、单仁科、罗静、杨敏、蔡达成

大纲

本文强调,能够处理所有类型的双向和多轮交互的下一代多模态模型将成为通用人工智能系统的核心要素。为了克服现有模型的局限性,本文介绍了 NExT-OMNI,这是一个基于全模态的开源模型,通过离散流范式实现统一建模。NExT-OMNI 利用度量引导的概率路径和最优运动速度来支持所有类型的理解和生成。其简洁统一的表示形式(而非任务分离的设计)使其适用于广泛的场景。NExT-OMNI 已在大规模文本、图像、视频和音频数据上进行训练,在多模态生成和理解基准测试中展现出极具竞争力的性能,并在多轮多模态交互和跨模态检索方面超越了之前的统一模型。为了方便研究,我们开源了训练细节、数据协议、代码和模型检查点。

Takeaways, Limitations

Takeaways:
对所有类型的理解和创作提供原生支持并提高响应效率。
通过简洁、集成的表示形式而不是任务分离的设计来应用广泛的场景
多模式生成和理解基准中的竞争性能
在多轮多模式交互和跨模式搜索方面优于以前的集成模型。
开源提供代码、模型检查点、训练细节和数据协议。
Limitations:
论文中没有指定Limitations。
👍