Dans cet article, nous proposons Agent-RewardBench, un benchmark permettant d'évaluer la capacité de modélisation de la récompense des agents. Ce benchmark vise à résoudre le problème des agents multimodaux basés sur des modèles de langage multimodaux à grande échelle (MLLM) qui ont des difficultés à s'autocorriger et à généraliser dans des tâches réelles. Agent-RewardBench présente trois caractéristiques principales : divers scénarios réels (sept scénarios incluant la perception, la planification et la sécurité), une évaluation progressive des récompenses, une difficulté adaptée et une qualité de données élevée. Les résultats expérimentaux montrent que même les modèles multimodaux les plus performants présentent des performances limitées, soulignant la nécessité d'une formation spécialisée pour la modélisation de la récompense des agents.