본 논문은 기존 언어 모델 평가 벤치마크의 한계점(인간 또는 기계 주석의 가치 편향, 실제 사용 환경과의 차이)을 지적하고, 실제 사용자-LLM 상호작용을 반영하고 심리측정학적으로 검증된 새로운 벤치마크인 "Value Portrait"를 제안합니다. Value Portrait는 인간 피험자의 가치관과의 상관관계를 분석하여 특정 가치와 강하게 연관된 항목을 선별하며, 44개의 LLMs를 평가하여 각 모델의 가치 지향성(Benevolence, Security, Self-Direction 등의 우선순위, Tradition, Power, Achievement 등의 낮은 우선순위)과 다양한 인구통계 집단에 대한 편향을 분석합니다.