本文分析了使用大规模语言模型 (LLM) 作为评估器的多智能体系统中的偏见。具体而言,我们在两个框架(多智能体辩论和 LLM 作为元评判)中评估了四种类型的偏见——立场偏见、细节偏见、思维过程偏见和观点偏见。实验结果表明,辩论框架在初始辩论后会显著放大并持续存在偏见,而元评估器方法则更能抵御偏见。此外,集成单智能体偏见缓解技术 PINE 可以有效减少辩论场景中的偏见,但在元评估器场景中效果较差。本研究对多智能体 LLM 评估系统中的偏见行为进行了全面的研究,并强调了在协作评估环境中制定有针对性的偏见缓解策略的必要性。