Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks

Created by
  • Haebom

저자

Yuxuan Li, Aoi Naito, Hirokazu Shirado

개요

본 논문은 대규모 언어 모델(LLM) 기반의 다중 에이전트 시스템이 분산 정보 통합을 통해 문제 해결 능력을 향상시킬 수 있지만, 인간 집단에서 관찰되는 집단적 추론 실패를 반복할 위험성도 가지고 있음을 지적합니다. 이러한 실패를 체계적으로 평가할 수 있는 이론적 기반의 벤치마크가 부재한 현실을 고려하여, 본 논문에서는 사회 심리학의 숨겨진 프로파일(Hidden Profile) 패러다임을 다중 에이전트 LLM 시스템의 진단 테스트베드로 제안합니다. 에이전트 간에 중요 정보를 비대칭적으로 분산함으로써, 에이전트 간의 상호 작용 역학이 집단적 추론을 어떻게 지원하거나 방해하는지 밝힙니다. 다양한 시나리오를 포함하는 9가지 과제를 통해 이 패러다임을 공식화하고 벤치마크로 구현합니다. GPT-4.1을 포함한 5개의 주요 LLM을 대상으로 실험을 수행한 결과, 모든 모델에서 다중 에이전트 시스템은 완전한 정보를 제공받은 단일 에이전트의 정확도에 미치지 못하는 것으로 나타났습니다. 다중 에이전트 시스템의 집단적 성능은 인간 집단의 성능과 대체로 비슷하지만, 사회적 바람직성에 대한 민감도 증가와 같은 미묘한 행동적 차이가 나타났습니다. 마지막으로, 다중 에이전트 LLM 시스템에서 협력-모순 간의 절충 관계를 탐색하여 패러다임의 진단 유용성을 입증합니다. 협력적인 에이전트는 집단적 환경에서 과도한 조정 경향을 보이는 반면, 모순의 증가는 그룹 수렴을 저해하는 것으로 나타났습니다. 본 연구는 다중 에이전트 LLM 시스템을 평가하기 위한 재현 가능한 프레임워크를 제공하고, 인공 집단 지능과 인간-AI 상호 작용에 대한 미래 연구를 촉구합니다.

시사점, 한계점

시사점:
다중 에이전트 LLM 시스템의 집단적 추론 실패를 평가하기 위한 새로운 벤치마크(Hidden Profile 패러다임) 제시
다중 에이전트 LLM 시스템의 행동적 특징(사회적 바람직성에 대한 민감도, 협력과 모순의 상호작용) 규명
인공 집단 지능 및 인간-AI 상호 작용 연구에 대한 새로운 방향 제시
재현 가능한 실험 프레임워크 제공
한계점:
현재 벤치마크는 특정 LLM과 과제에 국한됨. 더 다양한 LLM과 과제에 대한 확장 필요.
인간 집단과의 비교 분석은 제한적임. 더 심도있는 인간-AI 비교 연구 필요.
협력과 모순의 상호작용에 대한 분석이 더욱 심화될 필요가 있음.
실제 세계 문제에 대한 적용 가능성에 대한 추가 연구 필요.
👍