본 논문은 일상생활에서 마주치는 1,360개의 도덕적 딜레마를 담은 DailyDilemmas 데이터셋을 제시합니다. 각 딜레마는 두 가지 행동 방안과 영향받는 당사자, 각 행동과 관련된 인간의 가치를 제시합니다. 이를 바탕으로 다양한 일상 주제(대인 관계, 직장, 환경 문제 등)를 아우르는 인간 가치 저장소를 구축하고, LLM이 이러한 딜레마에서 어떤 행동을 선택하고, 그 선택이 어떤 가치를 반영하는지 평가합니다. 세계 가치 조사, 도덕적 기반 이론, 매슬로우의 욕구 단계 이론, 아리스토텔레스의 덕, 플루치크의 감정의 바퀴 등 5가지 이론적 틀을 통해 가치를 분석하여, LLM이 세계 가치 조사에서는 생존보다 자기 표현에, 도덕적 기반 이론에서는 충성심보다 배려에 더 부합하는 경향을 보이는 것을 발견합니다. 또한, 모델 간 핵심 가치에 대한 상당한 차이를 발견하고(예: Mixtral-8x7B는 진실성을 9.7% 무시하는 반면 GPT-4-turbo는 9.4% 선택), OpenAI(ModelSpec)와 Anthropic(Constitutional AI)의 가이드라인이 일상생활의 미묘한 도덕적 추론 상황에서 모델의 실제 가치 우선순위를 어떻게 반영하는지 분석하고, 최종적으로 사용자가 시스템 프롬프트를 사용하여 이러한 우선순위를 효과적으로 조정할 수 없음을 발견합니다.