Este artículo estudia el uso de agentes de Modelos de Lenguaje Grande (LLM) para resolver tareas estructuradas de rescate de víctimas en entornos multiagente. Los agentes LLM operan en un entorno basado en grafos que requiere división del trabajo, priorización y planificación colaborativa, y deben asignar recursos a víctimas con diferentes necesidades y niveles de urgencia. Evaluamos sistemáticamente el rendimiento mediante diversas métricas sensibles a la colaboración, como la tasa de éxito de las tareas, el trabajo duplicado, las colisiones en la sala y la eficiencia ponderada por la urgencia. Este estudio proporciona nuevos conocimientos sobre las fortalezas y los modos de fallo de LLM en tareas colaborativas multiagente basadas en la física, lo que contribuye a futuras evaluaciones comparativas y mejoras de la arquitectura.