본 논문은 저자원 언어인 덴마크어에 대한 생성형 대규모 언어 모델(GLLM)의 성능 평가를 위한 벤치마크를 제시합니다. 덴마크어의 언어 및 문화적 역량을 측정하는 "Danoliteracy"를 평가하기 위해 덴마크 시민권 시험 및 소셜 미디어 요약 질문 응답 등 8가지 다양한 시나리오를 포함하는 벤치마크를 개발했습니다. 이 벤치마크를 통해 GPT-4와 Claude Opus 모델이 가장 높은 순위를 기록했으며, 인간 피드백과의 상관관계는 ρ ≈ 0.8로 높은 수준임을 보였습니다. 또한, 덴마크어 GLLM의 시나리오 성능 차이를 설명하는 주요 요인 하나가 전체 분산의 95%를 설명한다는 것을 발견하여 모델의 언어 적응 일관성을 나타내는 'g 요인'의 존재를 시사합니다.