Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WiS Platform: Enhancing Evaluation of LLM-Based Multi-Agent Systems Through Game-Based Analysis

Created by
  • Haebom

저자

Chengwei Hu, Jianhui Zheng, Yancheng He, Hangyu Guo, Junguang Jiang, Han Zhu, Kai Sun, Yuning Jiang, Wenbo Su, Bo Zheng

개요

본 논문은 대규모 언어 모델(LLM) 기반의 자율 다중 에이전트 시스템(MAS) 연구를 위한 오픈소스 플랫폼인 "Who is Spy?" (WiS)를 제시한다. WiS 플랫폼은 Hugging Face에서 접근 가능한 모델들을 지원하는 통합 모델 평가 인터페이스, 실시간 업데이트되는 리더보드, 게임 승률, 공격 및 방어 전략, 추론 능력 등을 포함하는 종합적인 평가 기능을 제공한다. 다양한 오픈소스 및 클로즈드소스 LLM을 이용한 실험을 통해 플랫폼의 효율성과 효과성을 검증하고, LLM 기반 MAS의 연구를 촉진하고자 한다. 플랫폼은 https://whoisspy.ai/ 에서 공개적으로 접근 가능하다.

시사점, 한계점

시사점:
LLM 기반 MAS 연구를 위한 오픈소스 플랫폼 제공으로 연구 접근성 향상 및 연구 가속화.
Hugging Face 모델 지원을 통한 다양한 LLM 비교 및 분석 가능.
실시간 리더보드 및 종합적인 평가 지표 제공으로 모델 성능 비교 및 분석 용이.
다양한 LLM의 게임 내 행동 분석을 통한 LLM의 강점 및 약점 파악 가능.
한계점:
"Who is Spy?" 게임에 특화된 플랫폼으로, 다른 유형의 MAS 평가에는 적용하기 어려울 수 있음.
플랫폼의 확장성 및 유지보수에 대한 장기적인 지속가능성 검토 필요.
평가 지표의 객관성 및 일반화 가능성에 대한 추가적인 연구 필요.
현재 평가 기준이 게임 승률에 치중되어 있어 LLM의 전략적 사고 측면의 심층 분석이 부족할 수 있음.
👍