본 논문은 기존 언어 모델 평가 벤치마크의 한계점(인간 또는 기계 주석의 가치 편향, 실제 사용 환경과의 차이)을 지적하고, 실제 사용자-LLM 상호작용을 반영하고 심리측정학적으로 검증된 새로운 벤치마크인 "Value Portrait"를 제안합니다. Value Portrait는 사용자의 가치관과의 유사성을 기반으로 항목을 평가하여, LLM의 가치 지향성을 평가합니다. 27개의 LLM을 평가한 결과, Benevolence, Security, Self-Direction 가치를 우선시하고 Tradition, Power, Achievement 가치는 덜 중요시하는 경향과, 인간과 다른 다양한 인구 집단에 대한 편향을 발견했습니다.