Các mô hình ngôn ngữ quy mô lớn (LLM) thường tạo ra các phản hồi có sai lệch cố hữu, làm giảm độ tin cậy của chúng trong các ứng dụng thực tế. Các phương pháp đánh giá hiện tại thường bỏ qua các sai lệch cố hữu trong các phản hồi dạng dài và tính biến thiên cố hữu trong đầu ra của LLM. Để giải quyết những thách thức này, bài báo này đề xuất So sánh ngữ nghĩa chi tiết (FiSCo), một khuôn khổ thống kê mới để đánh giá tính công bằng ở cấp độ nhóm trong LLM bằng cách phát hiện những khác biệt ngữ nghĩa tinh tế trong các phản hồi dạng dài giữa các nhóm nhân khẩu học. Không giống như các nghiên cứu trước đây tập trung vào so sánh ở cấp độ cảm xúc hoặc mã thông báo, FiSCo phân tích các phản hồi ở cấp độ ngữ nghĩa bằng cách tận dụng các kiểm tra hàm ý để đánh giá tính nhất quán ngữ nghĩa. Nó phân tích các đầu ra của mô hình thành các tuyên bố riêng biệt về mặt ngữ nghĩa và áp dụng kiểm định giả thuyết thống kê để so sánh các điểm tương đồng giữa và trong nhóm, cho phép phát hiện mạnh mẽ các sai lệch tinh vi. Chúng tôi chính thức hóa một định nghĩa mới về tính công bằng phản thực tế của nhóm và xác thực FiSCo trên các tập dữ liệu tổng hợp và được chú thích bởi con người bao gồm giới tính, chủng tộc và độ tuổi. Kết quả thử nghiệm chứng minh rằng FiSCo vượt trội hơn nhiều chỉ số đánh giá khác nhau trong việc xác định các sai lệch tinh vi một cách đáng tin cậy hơn đồng thời giảm thiểu tác động của biến động LLM ngẫu nhiên.