본 논문은 다중 모달 대규모 언어 모델(MLLM)에 "느린 사고" 능력을 통합하여 다중 모달 수학적 추론이라는 어려운 과제를 해결합니다. 핵심 아이디어는 서로 다른 수준의 추론 능력을 동적으로 결합하여 복잡성이 다른 질문에 대처하는 것입니다. 이를 위해, 최소한의 의미적 원자 단계로 구성된 자기 구조화 사고 연쇄(SCoT) 패러다임을 제안합니다. 구조화된 템플릿이나 자유 형식 패러다임에 의존하는 기존 방법과 달리, 본 방법은 다양한 복잡한 작업에 대한 인지적 CoT 구조를 생성할 수 있을 뿐만 아니라 과도한 사고 현상을 완화합니다. 시각적 이해 모델에 구조화된 추론 기능을 도입하기 위해, 데이터 엔진, 지도식 미세 조정 과정, 정책 기반 다회차 추론 방법, 원자적 능력 측정 지표 등 네 가지 주요 모듈을 포함하는 새로운 AtomThink 프레임워크를 설계했습니다. 광범위한 실험을 통해 제안된 AtomThink가 기준 MLLM의 성능을 크게 향상시켜 MathVista 및 MathVerse에서 평균 정확도를 10% 이상 향상시키는 것을 보여줍니다. 최첨단 구조화된 CoT 접근 방식과 비교하여, 본 방법은 더 높은 정확도를 달성할 뿐만 아니라 데이터 활용도를 5배 향상시키고 추론 효율성을 85.3% 향상시킵니다. 코드는 https://github.com/Quinn777/AtomThink 에서 공개적으로 이용 가능합니다.