我们在医学图像分割领域开展了一项研究,旨在确定一个能够处理多样化数据的稳健通用全能模型 (Omni) 能否与专用模型相媲美。我们比较了最先进的全能模型(Gemini,“纳米香蕉”模型)与专用深度学习模型在三个任务上的零样本性能:息肉(内窥镜检查)、视网膜血管(眼底)和乳腺肿瘤分割(超声检查)。基于专家模型的准确率,我们选择了“最简单”和“最困难”的案例来评估它们的极限性能。在息肉和乳腺肿瘤分割中,专家模型的表现优于简单样本,但全能模型在专家模型无法处理的困难样本上表现出了更强的稳健性。相反,在视网膜血管分割中,专家模型在简单和困难情况下都保持了卓越的性能。此外,全能模型在识别人类注释者遗漏的细微解剖特征方面表现出了极高的灵敏度。