본 논문은 대규모 언어 모델(LLM)이 다양한 문화적 도덕적 틀을 제대로 반영하지 못하고 있다는 것을 밝힙니다. 19개 문화적 배경에 걸쳐 도덕적 기초 설문지를 적용하여 AI가 생성한 결과와 인간의 도덕적 직관 사이의 상당한 차이를 보여줍니다. 여러 최첨단 LLM을 비교 분석한 결과, 이러한 모델들이 도덕적 다양성을 체계적으로 동질화하는 것으로 나타났으며, 모델 크기가 커진다고 해서 문화적 표현 충실도가 일관되게 향상되는 것은 아님을 발견했습니다. 이 연구는 사회과학 연구에서 LLM을 합성 인구로 사용하는 것에 대한 문제점을 제기하며, 현재의 AI 정렬 접근 방식의 근본적인 한계를 강조합니다. 단순히 프롬프트를 넘어선 데이터 기반 정렬 없이는, 이러한 시스템은 섬세하고 문화적으로 특수한 도덕적 직관을 포착할 수 없습니다. 따라서 다양한 인간의 가치를 반영하는 AI 시스템을 구축하기 위해서는 보다 근거 있는 정렬 목표와 평가 지표가 필요함을 시사합니다.