本文强调,能够处理所有类型的双向和多轮交互的下一代多模态模型将成为通用人工智能系统的核心要素。为了克服现有模型的局限性,本文介绍了 NExT-OMNI,这是一个基于全模态的开源模型,通过离散流范式实现统一建模。NExT-OMNI 利用度量引导的概率路径和最优运动速度来支持所有类型的理解和生成。其简洁统一的表示形式(而非任务分离的设计)使其适用于广泛的场景。NExT-OMNI 已在大规模文本、图像、视频和音频数据上进行训练,在多模态生成和理解基准测试中展现出极具竞争力的性能,并在多轮多模态交互和跨模态检索方面超越了之前的统一模型。为了方便研究,我们开源了训练细节、数据协议、代码和模型检查点。