我们提出了 TokenChain,它通过模仿机器语音链 (Machine Speech Chain) 来共同改进 ASR 和 TTS。TokenChain 是一个完全离散的语音链,它将基于语义 token 的 ASR 与两阶段 TTS(一个与 ASR 共同训练的自回归文本到语义模型,以及一个用于合成的掩蔽生成语义到声学模型)相结合。端到端反馈通过直通式 argmax/Gumbel-Softmax 实现,并通过动态加权平均与监督 ASR 进行平衡。消融研究 (Ablation) 探讨了域内和跨域传输的最佳温度方案。