本文提出了一种高效的后处理方法——重建对齐 (RecA),用于改进统一多模态模型 (UMM) 的生成和理解。现有的 UMM 学习方法受限于依赖图文对,而图文对的标题往往会遗漏视觉细节。RecA 通过使用自身的视觉理解嵌入来调节 UMM,将视觉理解编码器嵌入用作不带标题的密集“文本提示”,并使用基于自监督学习的重建损失函数来优化输入图像的重建,从而重新调整理解和生成。RecA 适用于各种 UMM 架构(自回归、掩蔽自回归和基于扩散的架构),并在 GenEval、DPGBench、ImgEdit 和 GEdit 等多个基准测试中展现出性能提升。它仅需 27 个 GPU 小时的后处理时间即可实现显著的性能提升,展现出一种高效且通用的 UMM 后处理对齐策略,其性能优于大规模开源模型。