Cette étude évalue systématiquement les capacités de prise de décision éthique et les biais potentiels de neuf modèles linguistiques à grande échelle (MLH) populaires. Nous évaluons les préférences éthiques, la sensibilité, la stabilité et les schémas de regroupement des modèles à travers 50 400 essais, couvrant quatre scénarios de dilemme éthique (protecteur ou nuisible) impliquant des attributs protégés, y compris des combinaisons d'attributs uniques et croisés. Les résultats révèlent des biais significatifs en faveur des attributs protégés dans tous les modèles, les préférences variant selon le type de modèle et le contexte du dilemme. Plus précisément, les LMH open source présentent des préférences plus marquées pour les groupes marginalisés et une plus grande sensibilité dans les scénarios nuisibles, tandis que les modèles fermés sont plus sélectifs dans les scénarios protecteurs et tendent à favoriser les groupes majoritaires. De plus, le comportement éthique varie selon les dilemmes. Les LMH conservent des schémas cohérents dans les scénarios protecteurs, mais prennent des décisions plus diversifiées et cognitivement exigeantes dans les scénarios nuisibles. De plus, les modèles présentent des biais éthiques plus prononcés dans les contextes à attributs croisés que dans les contextes à attribut unique, ce qui suggère que des entrées complexes révèlent des biais plus profonds. Ces résultats soulignent la nécessité d’une évaluation multidimensionnelle et contextuelle du comportement éthique dans les LLM, et suggèrent une évaluation et une approche systématiques pour comprendre et aborder l’équité dans la prise de décision des LLM.