每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

EAI-Avatar:情绪感知交互式说话头像生成

Created by
  • Haebom

作者

杨海杰、张振宇、唐浩、钱建军、杨健

大纲

本文提出了一种新颖的对话虚拟形象生成框架 EAI-Avatar,用于识别双向对话情境中的情绪。为了克服现有单向肖像动画生成方法的局限性,我们利用大规模语言模型(LLM,例如 GPT-4)的对话生成能力,生成具有丰富且时间一致的情绪变化的虚拟形象。具体而言,我们设计了一个基于 Transformer 的头部掩模生成器,该生成器能够在潜在掩模空间中学习时间一致的运动特征。这使我们能够生成任意长度的时间一致的掩模序列来控制头部运动。此外,我们引入了一个交互式对话树结构,其中每个节点代表子/父/兄弟节点信息以及当前角色的情绪状态,从而表示对话状态的转换。通过反向层级遍历,我们从当前节点中提取丰富的过去情绪线索来指导面部表情合成。大量实验证明了该方法的卓越性能和有效性。

Takeaways, Limitations

Takeaways:
我们提出了一种在双向对话情况下生成情感丰富且时间一致的交互式化身的技术。
提出通过基于 LLM 和 Transformer 的高效架构生成实时或近实时动画的可能性。
有效利用情感信息可以创造出更加真实、更具沉浸感的形象。
Limitations:
需要进一步研究所提出方法的实时性能和可扩展性。
需要评估和提高跨各种情感表达和对话环境的概括能力。
获取用于创建逼真的头像的高分辨率、高质量数据非常困难。
由于对 LLM 的依赖程度较高,因此头像生成的质量可能会受到 LLM 性能的影响。
👍