Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article part du principe que les agents basés sur des modèles de langage à grande échelle ont révolutionné notre façon d'interagir avec le monde physique en modifiant l'environnement à l'aide d'outils. Contrairement aux tâches traditionnelles de traitement du langage naturel, ces agents doivent prendre en compte des facteurs plus complexes, tels que les relations entre les outils, les retours environnementaux et les décisions antérieures, pour prendre des décisions. Les études existantes évaluent principalement les agents via des conversations à plusieurs tours, mais négligent l'impact de ces facteurs importants sur leur comportement. Pour combler cette lacune, cet article présente $C^3$-Bench, un benchmark open source de haute qualité. $C^3$-Bench intègre le concept d'attaque et applique l'analyse univariée pour identifier avec précision les facteurs clés qui influencent la robustesse des agents. Plus précisément, nous concevons trois tâches : l'exploration des relations complexes entre les outils, le traitement des informations cachées importantes et la gestion des chemins de décision dynamiques. Pour compléter ces tâches, nous introduisons des métriques fines, des algorithmes de collecte de données innovants et des méthodes d'évaluation reproductibles. Des expériences approfondies menées sur 49 agents de premier plan (dont des modèles généraux à réflexion rapide, à réflexion lente et spécifiques à un domaine) ont montré que les agents souffraient de lacunes importantes dans la gestion de la dépendance aux outils, de la dépendance aux informations contextuelles longues et des changements fréquents de type de politique. En substance, $C^3$-Bench vise à exposer les vulnérabilités des modèles à travers ces tâches et à faciliter la recherche sur l'interprétabilité des performances des agents. Le benchmark est accessible au public à l'adresse https://github.com/TencentHunyuan/C3-Benchmark .
Takeaways, Limitations_
•
Takeaways:
◦
Nous présentons un nouveau benchmark ($C^3$-Bench) pour évaluer la robustesse et l'interprétabilité des agents basés sur des modèles de langage à grande échelle.
◦
Nous suggérons des orientations de recherche futures en révélant les vulnérabilités des agents telles que la dépendance aux outils, le traitement des informations contextuelles à long terme et la capacité de changement de politique.
◦
Il est publié en open source, permettant à d’autres chercheurs de le reproduire et de mener des recherches supplémentaires.
◦
Des mesures granulaires et des algorithmes de collecte de données innovants permettent une évaluation plus sophistiquée des agents.
•
Limitations:
◦
Les types et la portée des tâches actuellement incluses dans le référentiel peuvent être limités.
◦
Cette analyse est basée sur une analyse univariée, une analyse plus approfondie par le biais d’une analyse multivariée est donc nécessaire.
◦
Le type d’agent évalué peut être biaisé en faveur d’un domaine spécifique.
◦
Il est possible qu’il ne reflète pas parfaitement les différentes situations et variables qui peuvent se produire dans les applications du monde réel.