본 논문은 대규모 언어 모델(LLM)의 암묵적 편향과 도덕적 경향성을 이해하는 데 중점을 둡니다. 도덕 기반 이론에 기초한 도덕 기반 LLM 데이터셋(MFD-LLM)을 제시하며, 이는 인간의 도덕성을 6가지 핵심 기반으로 개념화합니다. 다양한 실제 도덕적 딜레마에 대한 응답을 통해 LLM의 드러나는 도덕적 선호도의 전체 범위를 포착하는 새로운 평가 방법을 제안합니다. 연구 결과, 최첨단 모델들은 매우 균일한 가치 선호도를 보이지만 일관성이 부족함을 보여줍니다.