본 논문은 대규모 언어 모델(LLM)의 내재된 가치 메커니즘을 이해하고 분석하기 위한 새로운 프레임워크인 ValueExploration을 제안합니다. 기존 연구가 주로 AI 안전성에 초점을 맞춰 외부 반응을 통해 가치를 평가하는 데 그쳤던 한계를 극복하고자, 뉴런 수준에서 국가 사회적 가치의 행동 기반 메커니즘을 탐구하는 것을 목표로 합니다. 중국 사회적 가치를 사례 연구로 선정하여, 중국어 사회적 가치를 식별하고 평가하기 위한 대규모 이중 언어 벤치마크인 C-voice를 구축하고, 이를 활용하여 해당 가치를 인코딩하는 뉴런을 식별하고 위치를 파악합니다. 마지막으로, 이러한 뉴런을 비활성화하여 모델 행동의 변화를 분석함으로써 가치가 LLM 의사결정에 영향을 미치는 내부 메커니즘을 밝힙니다. 네 개의 대표적인 LLM에 대한 광범위한 실험을 통해 프레임워크의 효과를 검증하고, 벤치마크와 코드를 공개할 예정입니다.