本文提出了一种新颖的对话虚拟形象生成框架 EAI-Avatar,用于识别双向对话情境中的情绪。为了克服现有单向肖像动画生成方法的局限性,我们利用大规模语言模型(LLM,例如 GPT-4)的对话生成能力,生成具有丰富且时间一致的情绪变化的虚拟形象。具体而言,我们设计了一个基于 Transformer 的头部掩模生成器,该生成器能够在潜在掩模空间中学习时间一致的运动特征。这使我们能够生成任意长度的时间一致的掩模序列来控制头部运动。此外,我们引入了一个交互式对话树结构,其中每个节点代表子/父/兄弟节点信息以及当前角色的情绪状态,从而表示对话状态的转换。通过反向层级遍历,我们从当前节点中提取丰富的过去情绪线索来指导面部表情合成。大量实验证明了该方法的卓越性能和有效性。