HiddenBench: Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks

작성자

Haebom

카테고리

Empty

저자

Yuxuan Li, Aoi Naito, Hirokazu Shirado

HiddenBench: A Benchmark for Collective Reasoning in Multi-Agent LLMs

개요

본 논문은 대규모 언어 모델(LLM) 기반의 다중 에이전트 시스템의 집단 추론 능력을 평가하기 위한 최초의 벤치마크인 HiddenBench를 소개합니다. Hidden Profile 패러다임을 기반으로 하여, 각 에이전트가 비대칭적인 정보를 가지고 상호 소통을 통해 올바른 결정을 내려야 하는 상황을 설정합니다. 논문은 GPT-4.1과 같은 LLM 기반 그룹이 분산된 지식을 통합하는 데 실패하고 인간과 유사한 집단 추론 오류를 보이는 것을 보여줍니다. HiddenBench는 65개의 사용자 지정 설계, 기존 연구 및 자동 생성된 작업을 포함하며, 4가지 모델군에 걸쳐 15개의 LLM을 평가합니다. 이 벤치마크는 모델 간의 비교 분석을 제공하고 집단 추론의 개선 방향을 제시합니다.

시사점, 한계점

•

시사점:

◦

다중 에이전트 LLM에서 집단 추론 능력을 평가하기 위한 최초의 벤치마크 제공.

◦

Hidden Profile 패러다임을 활용하여 집단 추론의 현실적인 상황을 모방.

◦

다양한 LLM 모델의 집단 추론 능력을 비교 분석하여 성능 차이 확인.

◦

일부 모델(예: Gemini-2.5-Flash/Pro)이 더 높은 성능을 보이지만, 규모와 추론 능력이 반드시 더 나은 집단 추론을 보장하지 않음을 확인.

◦

인공 집단 지능 연구를 위한 기초 제공.

•

한계점:

◦

벤치마크의 작업 범위가 특정 유형의 집단 추론에 국한될 수 있음.

◦

LLM 모델의 성능 평가가 특정 프롬프트 전략에 영향을 받을 수 있음.

◦

벤치마크가 실제 세계의 복잡한 상황을 완전히 반영하지 못할 수 있음.

◦

모델 성능 평가에 사용된 특정 모델 버전(예: GPT-4.1)에 한정된 결과일 수 있음.

PDF 보기

Made with Slashpage