每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MIO:多模态代币的基础模型

Created by
  • Haebom

作者

王泽坤、朱王、徐春璞、周望春树、刘家恒、张一波、王家硕、石宁、李思宇、李一智、阙浩然、张兆祥、张元兴、张戈、徐科、付杰、黄文浩

大纲

MIO 是一个基于多模态 token 的全新基础模型,能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。MIO 经过四个阶段的训练,在各种文本、视觉和语音任务中展现出卓越的性能,尤其在视频转文本生成、视觉推理和教学图像编辑方面表现出色。

Takeaways, Limitations

Takeaways:
任何输入(语音、文本、图像、视频)都可以生成任何输出(语音、文本、图像、视频)。
与 GPT-4o 类似功能的开源实现。
能够生成多模式交错序列。
在多种多模式任务(视频到文本生成、视觉思维、教学图像编辑等)中表现出色。
Limitations:
论文中没有具体提及Limitations。
👍