Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Plateforme WiS : Améliorer l'évaluation des systèmes multi-agents basés sur LLM grâce à l'analyse basée sur les jeux

Created by
  • Haebom

Auteur

Chengwei Hu, Jianhui Zheng, Yancheng He, Hangyu Guo, Junguang Jiang, Han Zhu, Kai Sun, Yuning Jiang, Wenbo Su, Bo Zheng

Contour

Dans cet article, nous présentons « Who is Spy ? » (WiS), une plateforme open source dédiée à la recherche sur les systèmes multi-agents autonomes (SMA) basés sur des modèles de langage à grande échelle (MLH). La plateforme WiS offre une interface d'évaluation de modèles unifiée prenant en charge les modèles accessibles depuis Hugging Face, ainsi qu'une fonction d'évaluation complète incluant un classement actualisé en temps réel, le taux de victoire, les stratégies d'attaque et de défense, et la capacité d'inférence. Grâce à des expérimentations utilisant divers MLH open et fermés, nous vérifions l'efficacité de la plateforme et promouvons la recherche sur les SMA basés sur les MLH. La plateforme est accessible au public à l' adresse https://whoisspy.ai/ .

Takeaways, Limitations_

Takeaways:
Fournir une plate-forme open source pour la recherche MAS basée sur le LLM afin d'améliorer l'accessibilité à la recherche et d'accélérer la recherche.
Comparaison et analyse de différents LLM possibles grâce au support du modèle Hugging Face.
Fournit des classements en temps réel et des mesures d'évaluation complètes pour faciliter la comparaison et l'analyse des performances du modèle.
Identifiez les forces et les faiblesses des LLM grâce à une analyse du comportement en jeu de divers LLM.
Limitations:
« Qui est Spy ? » est une plateforme spécialisée dans les jeux et peut être difficile à appliquer à d'autres types d'évaluations MAS.
Un examen de la durabilité à long terme de l’évolutivité et de la maintenance de la plateforme est nécessaire.
Des recherches supplémentaires sont nécessaires sur l’objectivité et la généralisabilité des indicateurs d’évaluation.
Les critères d’évaluation actuels sont fortement axés sur le taux de victoire au jeu, ce qui peut manquer d’une analyse approfondie de l’aspect de réflexion stratégique du LLM.
👍