본 논문은 대규모 언어 모델(LLM)이 근본적인 인간 가치를 학습하는지, 아니면 단순히 표면적인 선호도만 학습하는지 직접적으로 검증하는 평가 프레임워크인 Deep Value Benchmark (DVB)를 소개한다. DVB는 깊은 가치 (예: 도덕적 원칙)와 얕은 특징 (예: 표면적 속성) 간의 통제된 혼동을 통해 LLM의 가치 학습 능력을 측정한다. 훈련 단계에서 LLM은 깊은 가치와 얕은 특징이 고의적으로 연관된 인간 선호도 데이터에 노출된다. 테스트 단계에서는 이러한 연관성을 깨뜨려 LLM이 깊은 가치에 기반하여 일반화하는 확률인 Deep Value Generalization Rate (DVGR)을 측정한다. 9개의 모델에서 평균 DVGR은 0.30으로 나타났으며, 모든 모델이 우연보다 낮은 수준으로 깊은 가치를 일반화하는 것으로 확인되었다.