본 논문은 10개의 대규모 언어 모델(LLM)을 사용하여 20개국의 문화적 가치를 평가하는 대규모 연구를 수행했습니다. 저명한 문화 가치 설문지를 사용하고, 인간의 평가 점수와 LLM 출력을 신중하게 분석하여 국가 간 및 개별 모델 간의 LLM의 문화적 정합성을 철저히 조사했습니다. 연구 결과, 모든 모델의 출력은 중간 정도의 문화적 중간 지점을 나타내는 것으로 나타났습니다. 전반적인 편향을 고려하여, 연구진은 정합성 측정 지표를 제안했으며, 미국이 가장 잘 정합되는 국가이고 GLM-4가 문화적 가치에 가장 잘 맞는 능력을 가지고 있음을 밝혔습니다. 모델의 기원, 프롬프트 언어 및 가치 차원이 문화적 출력에 미치는 영향에 대한 심층적인 조사를 통해, 모델의 기원에 관계없이 미국에 대한 정합성이 중국보다 더 높다는 것을 발견했습니다. 본 연구는 LLM이 다양한 문화에 더 잘 맞춰질 수 있는 방법에 대한 통찰력을 제공하며, LLM이 문화적 편향을 확산시킬 가능성과 더욱 문화적으로 적응력 있는 모델의 필요성에 대한 논의를 촉구합니다.