Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Agent-RewardBench : Vers une référence unifiée pour la modélisation des récompenses en termes de perception, de planification et de sécurité chez les agents multimodaux du monde réel

Created by
  • Haebom

Auteur

Tianyi Men, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

Contour

Dans cet article, nous proposons Agent-RewardBench, un benchmark permettant d'évaluer la capacité de modélisation de la récompense des agents. Ce benchmark vise à résoudre le problème des agents multimodaux basés sur des modèles de langage multimodaux à grande échelle (MLLM) qui ont des difficultés à s'autocorriger et à généraliser dans des tâches réelles. Agent-RewardBench présente trois caractéristiques principales : divers scénarios réels (sept scénarios incluant la perception, la planification et la sécurité), une évaluation progressive des récompenses, une difficulté adaptée et une qualité de données élevée. Les résultats expérimentaux montrent que même les modèles multimodaux les plus performants présentent des performances limitées, soulignant la nécessité d'une formation spécialisée pour la modélisation de la récompense des agents.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle référence pour résoudre les problèmes d'autocorrection et de généralisation dans les agents multimodaux basés sur MLLM.
Fournit une méthodologie systématique pour évaluer la capacité de modélisation des récompenses de l'agent.
Il expose les limites des modèles de pointe et souligne la nécessité de recherches supplémentaires dans le domaine de la modélisation de la récompense des agents.
Limitations:
Le nombre et la variété des scénarios inclus dans un benchmark peuvent être limités.
Il peut y avoir un élément subjectif dans l’ajustement de la difficulté de l’indice de référence et dans la vérification de la qualité des données.
Une validation supplémentaire des performances de généralisation du benchmark proposé est nécessaire.
👍