본 논문은 대규모 언어 모델(LLM)과 대규모 다중 모달 모델(LMM)의 제한적인 추론 능력을 개선하기 위해, 자체 생성된 중간 개념 다이어그램을 통해 추론하는 제로샷 완전 자동 프레임워크를 제안합니다. 이 프레임워크는 자연어 설명만으로도 작동하며, 텍스트와 다이어그램 추론을 최적화된 그래프-오브-스레드 추론 프레임워크 내에서 통합합니다. 빔 서치와 깊이 우선 백트래킹을 사용하여 복잡한 다단계 조합 및 계획 작업에서의 성능을 향상시키며, 특히 PDDL 계획 도메인에서 GPT-4 및 o1-preview 모델보다 뛰어난 성능을 보입니다. Blocksworld 도메인에서 GPT-4의 성공률을 35.5%에서 90.2%로, Parking 도메인에서는 o1-preview 모델보다 13% 이상 향상된 결과를 얻었습니다. 이는 개념 다이어그램이 LMM의 추론 매개체로서 가치가 있음을 보여줍니다.