본 논문은 대규모 언어 모델(LLM) 기반의 다중 에이전트 시스템의 집단 추론 능력을 평가하기 위한 최초의 벤치마크인 HiddenBench를 소개합니다. Hidden Profile 패러다임을 기반으로 하여, 각 에이전트가 비대칭적인 정보를 가지고 상호 소통을 통해 올바른 결정을 내려야 하는 상황을 설정합니다. 논문은 GPT-4.1과 같은 LLM 기반 그룹이 분산된 지식을 통합하는 데 실패하고 인간과 유사한 집단 추론 오류를 보이는 것을 보여줍니다. HiddenBench는 65개의 사용자 지정 설계, 기존 연구 및 자동 생성된 작업을 포함하며, 4가지 모델군에 걸쳐 15개의 LLM을 평가합니다. 이 벤치마크는 모델 간의 비교 분석을 제공하고 집단 추론의 개선 방향을 제시합니다.