Cet article étudie l'utilisation d'agents LLM (Large Language Model) pour résoudre des tâches structurées de sauvetage de victimes dans des environnements multi-agents. Les agents LLM opèrent dans un environnement graphique exigeant une division du travail, une priorisation et une planification collaborative, et doivent allouer des ressources à des victimes ayant des besoins et des niveaux d'urgence variables. Nous évaluons systématiquement les performances à l'aide de diverses mesures sensibles à la collaboration, notamment le taux de réussite des tâches, le travail en double, les collisions de salles et l'efficacité pondérée par l'urgence. Cette étude apporte de nouvelles perspectives sur les points forts et les points faibles des agents LLM dans les tâches collaboratives multi-agents physiques, contribuant ainsi aux futurs benchmarks et améliorations de l'architecture.