WiS Platform: Enhancing Evaluation of LLM-Based Multi-Agent Systems Through Game-Based Analysis
Created by
Haebom
저자
Chengwei Hu, Jianhui Zheng, Yancheng He, Hangyu Guo, Junguang Jiang, Han Zhu, Kai Sun, Yuning Jiang, Wenbo Su, Bo Zheng
개요
본 논문은 대규모 언어 모델(LLM) 기반의 자율 다중 에이전트 시스템(MAS) 연구를 위한 오픈소스 플랫폼인 "Who is Spy?" (WiS)를 제시한다. WiS 플랫폼은 Hugging Face에서 접근 가능한 모델들을 지원하는 통합 모델 평가 인터페이스, 실시간 업데이트되는 리더보드, 게임 승률, 공격 및 방어 전략, 추론 능력 등을 포함하는 종합적인 평가 기능을 제공한다. 다양한 오픈소스 및 클로즈드소스 LLM을 이용한 실험을 통해 플랫폼의 효율성과 효과성을 검증하고, LLM 기반 MAS의 연구를 촉진하고자 한다. 플랫폼은 https://whoisspy.ai/ 에서 공개적으로 접근 가능하다.