본 논문은 문화유산 관련 작업(기념물 설명 생성, 고대 텍스트 번역, 구전 전통 보존, 교육 콘텐츠 생성 등)에서 점점 더 많이 사용되는 대규모 언어 모델(LLM)의 문화적 가치 정렬 문제를 체계적으로 평가한다. 5개의 오픈소스 LLM을 대상으로 문화유산 지식 체계 내 5개 범주, 17가지 측면을 포괄하는 1066개의 질의 작업을 수행하여 생성된 텍스트에서 문화적 가치 불일치의 유형과 비율을 조사한다. 자동 및 수동 접근 방식을 사용하여 LLM이 생성한 텍스트의 문화적 가치 불일치를 효과적으로 감지하고 분석하며, 그 결과 65% 이상의 생성된 텍스트에서 상당한 문화적 불일치가 나타났음을 밝혀냈다. 본 논문은 이러한 결과 외에도 향후 LLM의 문화적 민감성과 신뢰성 향상을 위한 연구에 귀중한 자료가 될 수 있는 벤치마크 데이터셋과 포괄적인 평가 워크플로우를 제시한다.