본 논문은 대규모 언어 모델(LLM)의 주관적인 선호도, 의견, 신념을 평가하기 위한 벤치마크인 Preference, Opinion, and Belief survey (POBS)를 제시합니다. POBS는 사회적, 문화적, 윤리적, 개인적 영역에 걸쳐 LLM의 주관적 성향을 평가하며, 신뢰성, 중립성, 일관성과 같은 특성을 측정합니다. 연구진은 여러 오픈소스 및 클로즈드소스 LLM을 평가하고, 추론 및 자기 반성 메커니즘을 통해 테스트 시간 연산을 증가시키는 것이 측정 지표에 미치는 영향을 조사했습니다. 그 결과, 다른 작업에서는 효과적이었던 이러한 메커니즘이 본 연구 영역에서는 제한적인 개선만 제공한다는 것을 발견했습니다. 또한, 최신 모델 버전이 일관성이 떨어지고 특정 관점에 대한 편향이 더 심해지는 추세를 보임을 밝혀냈습니다.