现代软件日益复杂,给站点可靠性工程 (SRE) 团队带来了沉重的运维负担,这催生了对能够模拟专家诊断推理的人工智能自动化解决方案的需求。现有解决方案受限于缺乏深度因果推理,或无法应对 SRE 独特的专业调查工作流程。本文介绍了 OpenDerisk,这是一个专为 SRE 设计的开源多智能体框架。OpenDerisk 集成了诊断专用的协作模型、可插拔推理引擎、知识引擎和标准化协议 (MCP),使专家智能体能够协作解决复杂的多领域问题。大规模评估表明,OpenDerisk 在准确性和效率方面显著优于最先进的基础设施解决方案。蚂蚁集团的大规模生产部署证明了其工业级的可扩展性和实际应用效果。