Este artículo aborda la detección del sarcasmo, un importante tema de investigación en el campo del procesamiento del lenguaje natural. Los métodos existentes de detección de sarcasmo en un solo modo (p. ej., texto) a menudo no logran resultados satisfactorios debido a la naturaleza implícita y sutil del sarcasmo. En este artículo, nos centramos en el enfoque multimodal y proponemos un innovador marco Commander-GPT multimodal que aprovecha un modelo de lenguaje multimodal a gran escala (MLLM) con potentes capacidades de procesamiento integradas para diversas fuentes de información. Inspirados en la estrategia militar, descomponemos la tarea de detección de sarcasmo en seis subtareas, y un comandante central (responsable de la toma de decisiones) asigna el modelo de lenguaje a gran escala más adecuado a cada subtarea. Finalmente, los resultados de detección de cada modelo se agregan para identificar el sarcasmo. Mediante experimentos exhaustivos con los conjuntos de datos MMSD y MMSD 2.0, utilizando cuatro modelos de lenguaje multimodales a gran escala y seis estrategias de incitación, logramos un rendimiento de vanguardia con una mejora del 19,3 % en la puntuación F1 sin necesidad de ajustes ni verificación de la verdad fundamental.