LLM 기반 에이전트의 사회적 상호작용 및 전략적 추론 능력에 대한 관심이 증가함에 따라, 본 논문은 기존 늑대인간 게임 기반 벤치마킹 플랫폼의 단순한 게임 설정, 불완전한 평가 지표 및 낮은 확장성 문제를 해결하기 위해 WereWolf-Plus 플랫폼을 제안한다. WereWolf-Plus는 다중 모델, 다차원, 다중 방법 벤치마킹 플랫폼으로, 늑대인간 게임에서 다중 에이전트 전략적 추론을 평가한다. 역할(예: 예언자, 마녀, 사냥꾼, 경호원, 보안관)의 사용자 정의 구성, 유연한 모델 할당 및 역할별 추론 향상 전략을 지원하며, 특수 역할, 늑대인간, 보안관에 대한 포괄적인 정량적 평가 지표를 도입하여 에이전트 추론 능력, 협력 능력 및 사회적 영향력에 대한 평가 차원을 풍부하게 한다. 결론적으로, WereWolf-Plus는 다중 에이전트 커뮤니티 내에서 추론 및 전략적 상호 작용에 대한 연구를 발전시키기 위한 더욱 유연하고 신뢰할 수 있는 환경을 제공한다. 소스 코드는 깃허브에서 공개적으로 제공된다.