Jingkun Ma, Runzhe Zhan, Yang Li, Di Sun, Hou Pong Chan, Lidia S. Chao, Derek F. Wong
개요
본 논문은 현재 Large Multi-modal Models (LMMs)의 시각 정보 전략적 수정 능력 부족 문제를 지적하며, 기하 문제 해결 능력을 평가하기 위한 새로운 벤치마크 VisAidMath와 Three-Layered Funnel Evaluation Framework을 제안합니다. 이 프레임워크는 최종 정답 정확도뿐 아니라 유효한 시각 보조 도구 생성 및 추론 단계의 건전성을 평가합니다. 최신 모델에 대한 실험 결과, 높은 정답률에도 불구하고 유효한 시각 보조 도구 생성 및 추론 능력에 심각한 결함이 있음을 발견하며, LMMs의 시각 인식과 논리적 추론 간의 근본적인 불일치를 드러냅니다.
시사점, 한계점
•
시사점:
◦
LMMs의 실제 추론 능력 부족을 밝혀내고, 단순 정확도 지표의 한계를 지적했습니다.
◦
VisAidMath 벤치마크와 Three-Layered Funnel Evaluation Framework을 통해 LMMs의 시각 정보 활용 능력을 정밀하게 평가할 수 있는 새로운 방법을 제시했습니다.
◦
현존하는 LMMs의 시각 인식과 논리적 추론 간의 근본적인 괴리를 발견했습니다.
•
한계점:
◦
특정 기하 문제 해결 도메인에 한정된 벤치마크를 사용했습니다.
◦
제안된 평가 프레임워크가 다른 유형의 문제나 모델에 일반화될 수 있는지 추가적인 연구가 필요합니다.