Los modelos lingüísticos a gran escala (LLM) suelen generar respuestas con sesgos inherentes, lo que compromete su fiabilidad en aplicaciones prácticas. Los métodos de evaluación existentes suelen pasar por alto los sesgos inherentes a las respuestas extensas y la variabilidad inherente a los resultados de los LLM. Para abordar estos desafíos, este artículo propone la Comparación Semántica de Grano Fino (FiSCo), un novedoso marco estadístico para evaluar la imparcialidad a nivel de grupo en los LLM mediante la detección de diferencias semánticas sutiles en las respuestas extensas entre grupos demográficos. A diferencia de estudios previos que se centran en comparaciones a nivel de sentimiento o de token, FiSCo analiza las respuestas a nivel semántico mediante comprobaciones de implicación para evaluar la consistencia semántica. Descompone los resultados del modelo en afirmaciones semánticamente distintas y aplica pruebas de hipótesis estadísticas para comparar similitudes entre grupos y dentro de ellos, lo que permite una detección robusta de sesgos sutiles. Formalizamos una novedosa definición de imparcialidad contrafactual de grupo y validamos FiSCo en conjuntos de datos sintéticos y anotados por personas que incluyen género, raza y edad. Los resultados experimentales demuestran que FiSCo supera varias métricas de evaluación al identificar sesgos sutiles de manera más confiable y al mismo tiempo mitigar el impacto de la variabilidad estocástica de LLM.