Este estudio evaluó sistemáticamente la capacidad de toma de decisiones éticas y el sesgo potencial de los modelos lingüísticos a gran escala (LLM) utilizando dos modelos, GPT-3.5 Turbo y Claude 3.5 Sonnet, para evaluar sus respuestas a dilemas éticos. Analizamos las preferencias éticas, la sensibilidad, la estabilidad y la agrupación de preferencias de los modelos en 11.200 experimentos que incluyeron múltiples atributos protegidos, como edad, género, raza, apariencia y estado de discapacidad. Los resultados revelaron preferencias consistentes por ciertos atributos (p. ej., "atractivo") e indiferencia sistemática por otros atributos en ambos modelos. GPT-3.5 Turbo mostró fuertes preferencias, consistentes con las estructuras de poder existentes, mientras que Claude 3.5 Sonnet mostró una gama más amplia de opciones de atributos protegidos. Además, observamos que la sensibilidad ética disminuyó significativamente en escenarios más complejos que involucraban múltiples atributos protegidos. Observamos que las referencias lingüísticas influyeron significativamente en las evaluaciones éticas de los modelos, como lo demuestran sus diferentes respuestas a los descriptores raciales ("Amarillo" vs. "Asiático"). Este estudio destaca preocupaciones importantes sobre el impacto potencial del sesgo LLM en los sistemas de toma de decisiones autónomos y enfatiza la necesidad de considerar cuidadosamente las propiedades protectoras en el desarrollo de IA.