대규모 언어 모델(LLM)의 성격 특성을 평가하는 데 대한 관심이 높아지고 있지만, 자기 보고식 설문지에 기반한 기존의 성격 평가는 고유한 편향과 메타지식 오염으로 인해 실제 행동의 미묘한 차이를 포착하지 못할 수 있습니다. 본 논문은 심리학에서 정보 제공자 보고 방법에서 영감을 받은 LLM 성격 평가를 위한 새로운 다중 관찰자 프레임워크를 제시합니다. 자기 평가에만 의존하는 대신, 특정 관계 맥락(예: 가족, 친구 또는 직장)으로 구성된 여러 관찰자 에이전트를 사용하여 피험자 LLM과의 상호 작용 시나리오를 시뮬레이션합니다. 이러한 관찰자들은 대화에 참여하고 그 후 빅 파이브 성격 차원에 걸쳐 평가를 제공합니다. 실험 결과, LLM은 자기 보고 성격 평가에 체계적인 편향을 가지고 있음을 보여줍니다. 또한, 관찰자 평가를 집계하면 비체계적인 편향이 효과적으로 줄어들고 5~7명의 관찰자를 사용하여 최적의 신뢰성을 달성합니다. 이러한 결과는 관계 맥락이 성격 인식에 미치는 상당한 영향을 강조하고 다중 관찰자 패러다임이 LLM 성격 특성에 대한 더욱 강력하고 맥락에 민감한 평가를 제공함을 보여줍니다.