Este estudio evalúa sistemáticamente las capacidades de toma de decisiones éticas y los posibles sesgos de nueve modelos lingüísticos a gran escala (LLM) populares. Evaluamos las preferencias éticas, la sensibilidad, la estabilidad y los patrones de agrupamiento de los modelos en 50.400 ensayos, que abarcan cuatro escenarios de dilemas éticos (protector vs. dañino) que involucran atributos protegidos, incluyendo combinaciones de un solo atributo y de atributos cruzados. Los resultados revelan sesgos significativos hacia los atributos protegidos en todos los modelos, con preferencias que varían según el tipo de modelo y los contextos de dilema. Específicamente, los LLM de código abierto muestran preferencias más fuertes por grupos marginados y mayor sensibilidad en escenarios dañinos, mientras que los modelos de código cerrado son más selectivos en escenarios protectores y tienden a favorecer a los grupos mayoritarios. Además, el comportamiento ético varía entre dilemas. Los LLM mantienen patrones consistentes en escenarios protectores, pero toman decisiones más diversas y cognitivamente exigentes en escenarios dañinos. Además, los modelos muestran sesgos éticos más pronunciados en entornos de atributos cruzados que en entornos de un solo atributo, lo que sugiere que las entradas complejas revelan sesgos más profundos. Estos resultados resaltan la necesidad de una evaluación multidimensional y consciente del contexto del comportamiento ético en los LLM, y sugieren una evaluación y un enfoque sistemáticos para comprender y abordar la imparcialidad en la toma de decisiones en los LLM.