Sign In

Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models?

Created by
  • Haebom
Category
Empty

저자

Kun Xiang, Zhili Liu, Zihao Jiang, Yunshuang Nie, Kaixin Cai, Yiyang Yin, Runhui Huang, Haoxiang Fan, Hanhui Li, Weiran Huang, Yihan Zeng, Yu-Jie Yuan, Jianhua Han, Lanqing Hong, Hang Xu, Xiaodan Liang

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)에 "느린 사고" 능력을 통합하여 다중 모달 수학적 추론이라는 어려운 과제를 해결합니다. 핵심 아이디어는 서로 다른 수준의 추론 능력을 동적으로 결합하여 복잡성이 다른 질문에 대처하는 것입니다. 이를 위해, 최소한의 의미적 원자 단계로 구성된 자기 구조화 사고 연쇄(SCoT) 패러다임을 제안합니다. 구조화된 템플릿이나 자유 형식 패러다임에 의존하는 기존 방법과 달리, 본 방법은 다양한 복잡한 작업에 대한 인지적 CoT 구조를 생성할 수 있을 뿐만 아니라 과도한 사고 현상을 완화합니다. 시각적 이해 모델에 구조화된 추론 기능을 도입하기 위해, 데이터 엔진, 지도식 미세 조정 과정, 정책 기반 다회차 추론 방법, 원자적 능력 측정 지표 등 네 가지 주요 모듈을 포함하는 새로운 AtomThink 프레임워크를 설계했습니다. 광범위한 실험을 통해 제안된 AtomThink가 기준 MLLM의 성능을 크게 향상시켜 MathVista 및 MathVerse에서 평균 정확도를 10% 이상 향상시키는 것을 보여줍니다. 최첨단 구조화된 CoT 접근 방식과 비교하여, 본 방법은 더 높은 정확도를 달성할 뿐만 아니라 데이터 활용도를 5배 향상시키고 추론 효율성을 85.3% 향상시킵니다. 코드는 https://github.com/Quinn777/AtomThink 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
다중 모달 수학적 추론 문제에 대한 새로운 접근 방식인 자기 구조화 사고 연쇄(SCoT)와 AtomThink 프레임워크 제시.
기존 방법보다 높은 정확도, 향상된 데이터 활용도 및 추론 효율성 달성.
MathVista 및 MathVerse에서 10% 이상의 평균 정확도 향상.
오픈소스 코드 공개를 통한 접근성 향상.
한계점:
본 논문에서 제시된 AtomThink 프레임워크의 일반화 성능 및 다양한 문제 유형에 대한 적용 가능성에 대한 추가 연구 필요.
더욱 복잡하고 다양한 다중 모달 수학적 추론 문제에 대한 성능 평가 필요.
AtomThink 프레임워크의 계산 비용 및 확장성에 대한 분석 필요.
👍