본 논문은 자연어 처리 분야에서 중요한 연구 주제인 비꼬기 감지에 대해 다룬다. 기존의 단일 모달 접근 방식(예: 텍스트)의 한계를 극복하기 위해, 다중 모달 접근 방식을 활용한 비꼬기 감지에 초점을 맞추고 있다. 다양한 정보원을 통합 처리하는 다중 모달 거대 언어 모델(MLLM)의 강력한 기능을 활용하여, 군사 전략에서 영감을 받은 혁신적인 다중 모달 Commander-GPT 프레임워크를 제안한다. 비꼬기 감지 작업을 6개의 하위 작업으로 분해하고, 각 하위 작업에 가장 적합한 거대 언어 모델을 할당하는 중앙 지휘자(의사결정자)를 통해 최종 감지 결과를 종합하여 비꼬기를 식별한다. MMSD 및 MMSD 2.0 데이터셋을 사용하여 네 가지 다중 모달 거대 언어 모델과 여섯 가지 프롬프팅 전략을 통해 실험을 진행하였으며, 미세 조정이나 기저 진실 근거 없이 최첨단 성능(F1 점수 19.3% 향상)을 달성함을 보여준다.