Cet article vise à améliorer l'efficience et l'efficacité de la construction de benchmarks pour évaluer les capacités spécifiques à un domaine des modèles de langage à grande échelle (MLH). Les benchmarks existants s'appuyaient principalement sur des règles de mise à l'échelle, l'affinement de l'apprentissage supervisé à l'aide de corpus volumineux ou la génération de vastes ensembles de questions. Cependant, l'impact de la conception de corpus et d'ensembles de questions-réponses (QA) sur la précision et le rappel des LLM spécifiques à un domaine n'a pas été exploré. Cet article comble cette lacune et démontre que les règles de mise à l'échelle ne sont pas toujours optimales pour la construction de benchmarks spécifiques à un domaine. Nous proposons plutôt Comp-Comp, un cadre de benchmarking itératif basé sur le principe d'exhaustivité-compressibilité. L'exhaustivité garantit le rappel sémantique pour un domaine donné, tandis que la compacité améliore la précision, guidant la construction de corpus et d'ensembles de questions-réponses. Afin de valider ce cadre, nous avons mené une étude de cas dans une université prestigieuse afin de développer XUBench, un benchmark à grande échelle, complet et à domaine fermé. Bien que cette étude ait utilisé un contexte académique comme étude de cas, le cadre Comp-Comp est conçu pour fournir des informations précieuses sur l’élaboration de repères dans une variété de domaines au-delà du milieu universitaire.