为了解决大规模语言模型 (LLM) 响应中固有的偏差,我们提出了一种名为细粒度语义比较 (FiSCo) 的新型统计框架。FiSCo 通过检测长格式响应中的细微语义差异来评估 LLM 的群体级公平性。与现有研究不同,FiSCo 超越了标记级分析,基于语义声明评估响应之间的语义一致性,并利用蕴涵检验。FiSCo 通过将模型输出分解为语义上不同的声明,并应用统计假设检验来比较组内和组间相似性,从而检测细微偏差。我们提出了群体反事实公平性的全新定义,并在涵盖性别、种族和年龄的合成和人工注释数据集上验证了 FiSCo。实验结果表明,与其他评估指标相比,FiSCo 能够更可靠地识别细微偏差,并减轻 LLM 中随机变异的影响。