Nghiên cứu này đánh giá một cách có hệ thống khả năng ra quyết định đạo đức và những sai lệch tiềm ẩn của chín mô hình ngôn ngữ quy mô lớn (LLM) phổ biến. Chúng tôi đánh giá các sở thích đạo đức, độ nhạy, tính ổn định và các mô hình cụm của các mô hình qua 50.400 thử nghiệm, bao gồm bốn kịch bản tình huống tiến thoái lưỡng nan về đạo đức (bảo vệ so với có hại) liên quan đến các thuộc tính được bảo vệ, bao gồm các kết hợp thuộc tính đơn lẻ và liên thuộc tính. Kết quả cho thấy sự sai lệch đáng kể đối với các thuộc tính được bảo vệ trên tất cả các mô hình, với các sở thích khác nhau tùy theo loại mô hình và bối cảnh tình huống tiến thoái lưỡng nan. Cụ thể, các LLM nguồn mở thể hiện sự ưu tiên mạnh mẽ hơn đối với các nhóm thiểu số và độ nhạy cảm cao hơn trong các tình huống có hại, trong khi các mô hình nguồn đóng có tính chọn lọc hơn trong các tình huống bảo vệ và có xu hướng ưu tiên các nhóm chính thống. Hơn nữa, hành vi đạo đức khác nhau giữa các tình huống tiến thoái lưỡng nan. Các LLM duy trì các mô hình nhất quán trong các tình huống bảo vệ, nhưng đưa ra các quyết định đa dạng hơn và đòi hỏi nhận thức cao hơn trong các tình huống có hại. Hơn nữa, các mô hình thể hiện sự sai lệch đạo đức rõ rệt hơn trong các bối cảnh liên thuộc tính so với các bối cảnh thuộc tính đơn lẻ, cho thấy rằng các đầu vào phức tạp bộc lộ những sai lệch sâu sắc hơn. Những kết quả này nhấn mạnh nhu cầu đánh giá đa chiều và theo ngữ cảnh về hành vi đạo đức trong LLM, đồng thời đề xuất phương pháp đánh giá và tiếp cận có hệ thống để hiểu và giải quyết vấn đề công bằng trong quá trình ra quyết định của LLM.