본 논문은 대규모 언어 모델(LLM) 기반의 다중 에이전트 시스템이 분산 정보 통합을 통해 문제 해결 능력을 향상시킬 수 있지만, 인간 집단에서 관찰되는 집단적 추론 실패를 반복할 위험성도 가지고 있음을 지적합니다. 이러한 실패를 체계적으로 평가할 수 있는 이론적 기반의 벤치마크가 부재한 현실을 고려하여, 본 논문에서는 사회 심리학의 숨겨진 프로파일(Hidden Profile) 패러다임을 다중 에이전트 LLM 시스템의 진단 테스트베드로 제안합니다. 에이전트 간에 중요 정보를 비대칭적으로 분산함으로써, 에이전트 간의 상호 작용 역학이 집단적 추론을 어떻게 지원하거나 방해하는지 밝힙니다. 다양한 시나리오를 포함하는 9가지 과제를 통해 이 패러다임을 공식화하고 벤치마크로 구현합니다. GPT-4.1을 포함한 5개의 주요 LLM을 대상으로 실험을 수행한 결과, 모든 모델에서 다중 에이전트 시스템은 완전한 정보를 제공받은 단일 에이전트의 정확도에 미치지 못하는 것으로 나타났습니다. 다중 에이전트 시스템의 집단적 성능은 인간 집단의 성능과 대체로 비슷하지만, 사회적 바람직성에 대한 민감도 증가와 같은 미묘한 행동적 차이가 나타났습니다. 마지막으로, 다중 에이전트 LLM 시스템에서 협력-모순 간의 절충 관계를 탐색하여 패러다임의 진단 유용성을 입증합니다. 협력적인 에이전트는 집단적 환경에서 과도한 조정 경향을 보이는 반면, 모순의 증가는 그룹 수렴을 저해하는 것으로 나타났습니다. 본 연구는 다중 에이전트 LLM 시스템을 평가하기 위한 재현 가능한 프레임워크를 제공하고, 인공 집단 지능과 인간-AI 상호 작용에 대한 미래 연구를 촉구합니다.