MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
Created by
Haebom
저자
Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
개요
자연어 이미지 캡션 데이터셋은 대규모 다중 모달 모델(LMM) 훈련에 널리 사용되지만, 주로 자연스러운 시나리오에 초점을 맞추고 문제 해결에 중요한 수학 그림의 복잡한 세부 사항을 간과하여 다중 모달 수학 추론에서 LMM의 발전을 저해합니다. 본 논문에서는 코드를 교차 모달 정렬에 대한 감독으로 활용하여 이 문제를 해결하고자 합니다. 코드는 본질적으로 해당 그림을 생성하는 데 필요한 모든 정보를 포함하고 두 모달리티 간의 정확한 연결을 설정하기 때문입니다. 특히, 모델-인-더-루프 접근 방식을 사용하여 이미지-투-코드 모델과 데이터셋을 공동 개발하여 이미지-투-코드 모델 FigCodifier와 현재까지 가장 큰 이미지-코드 데이터셋인 ImgCode-8.6M을 만들었습니다. 또한, FigCodifier를 사용하여 새로운 수학 그림을 합성하고 고품질 다중 모달 수학 지시 미세 조정 데이터셋인 MM-MathInstruct-3M을 구성했습니다. 마지막으로, ImgCode-8.6M으로 교차 모달 정렬을 위해 훈련되고 MM-MathInstruct-3M으로 다중 모달 수학 문제 해결을 위해 미세 조정된 MathCoder-VL을 제시합니다. MathCoder-VL은 6가지 지표에서 모두 새로운 오픈소스 최고 성능(SOTA)을 달성하며, 특히 MathVista의 기하 문제 해결 하위 집합에서 GPT-4o 및 Claude 3.5 Sonnet을 8.9% 및 9.2% 개선했습니다. 데이터셋과 모델은 https://github.com/mathllm/MathCoder에서 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
코드를 감독으로 활용하여 수학 그림과 자연어 간의 정확한 연결을 구축하는 새로운 접근 방식 제시.
◦
대규모 고품질 이미지-코드 데이터셋(ImgCode-8.6M)과 다중 모달 수학 지시 미세 조정 데이터셋(MM-MathInstruct-3M) 구축.
◦
다중 모달 수학 문제 해결에서 기존 최고 성능 모델(GPT-4o, Claude 3.5 Sonnet)을 능가하는 새로운 오픈소스 모델(MathCoder-VL) 개발.
◦
수학 추론 분야의 LMM 발전에 기여.
•
한계점:
◦
모델-인-더-루프 접근 방식의 한계 및 개선 여지.
◦
데이터셋의 범위 및 편향성에 대한 추가적인 분석 필요.
◦
다른 유형의 수학 문제에 대한 일반화 성능 평가 필요.
◦
ImgCode-8.6M 및 MM-MathInstruct-3M 데이터셋의 생성 과정에서 발생할 수 있는 편향성에 대한 검토 필요.