본 논문은 서구 중심적인 지식 체계와 사회문화적 규범을 강화하는 방식으로 주로 훈련되고 정렬되는 대규모 언어 모델(LLM)의 한계를 지적하며, 이로 인한 문화적 동질화와 세계 문명의 다양성을 반영하는 능력의 제한을 논의합니다. 기존 벤치마킹 프레임워크는 문화적 포용성의 복잡성을 간과하는 경직된 평가 방식에 의존하기 때문에 이러한 편향을 충분히 포착하지 못합니다. 이를 해결하기 위해, 본 논문은 다양한 세계관을 수용하는 LLM의 능력을 분석하여 LLM의 세계 문화 포용성(GCI)을 평가하도록 설계된 WorldView-Bench 벤치마크를 제시합니다. Senturk 등의 다중 세계관(Multiplex Worldview)에 기반하여, 문화적 동질화를 강화하는 단일 세계관(Uniplex) 모델과 다양한 관점을 통합하는 다중 세계관(Multiplex) 모델을 구분하고, 전통적인 범주형 벤치마크가 아닌 자유 형식의 생성적 평가를 통해 대안적 관점의 배제인 문화적 양극화를 측정합니다. 맥락적으로 구현된 다중 LLM(Contextually-Implemented Multiplex LLMs)과 다중 에이전트 시스템(MAS)-구현 다중 LLM(MAS-Implemented Multiplex LLMs)이라는 두 가지 개입 전략을 통해 응용 다중성을 구현합니다. 결과적으로 MAS-구현 다중 LLM을 사용하면 관점 분포 점수(PDS) 엔트로피가 기준선 13%에서 94%로 크게 증가하고, 긍정적 정서(67.7%)로 이동하고 문화적 균형이 향상됨을 보여줍니다. 이러한 결과는 LLM의 문화적 편향을 완화하고 더욱 포괄적이고 윤리적으로 정렬된 AI 시스템을 위한 길을 열어주는 다중 인식 AI 평가의 잠재력을 강조합니다.