本文探讨了在资源受限和潜在故障条件下运行的基于智能体的高级推理模型。这些模型与人类交互,并基于(近似)效用函数和内部模型解决序列决策问题。在资源受限或故障受限的问题中,资源耗尽可能导致行动序列终止,智能体在重新配置效用驱动的理性行为时面临隐性权衡。此外,由于这些智能体通常按照人类的指令行事,约束暴露的不对称可能导致人类目标与智能体激励之间出现意外的错位。本文使用生存强盗框架将这些设置形式化,并提出量化生存驱动偏好转变影响的理论和实验结果,识别错位发生的条件,并提出缓解风险寻求或风险规避行为发生的机制。因此,本研究旨在增强我们对在这种生存压力下运行的人工智能智能体的涌现行为的理解和解释,并为在关键资源受限环境中安全部署此类系统提供指导。