SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning
Created by
Haebom
저자
Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
개요
SeePhys는 중학교 수준부터 박사 자격 시험 수준까지의 물리학 문제를 다루는 대규모 다중 모드 벤치마크입니다. 7가지 기본 물리학 영역과 21가지의 매우 이질적인 다이어그램 범주를 포함하며, 시각적 요소가 보조적인 역할을 하는 기존 연구와 달리, 정답을 얻기 위해 시각 정보 추출이 필수적인 문제가 75%를 차지합니다. Gemini-2.5-pro 및 o4-mini 와 같은 최첨단 시각 추론 모델조차도 60% 미만의 정확도를 보였습니다. 이는 현대 대규모 언어 모델의 시각적 이해 능력, 특히 다이어그램 해석과 물리적 추론 간의 엄격한 결합 및 텍스트 단서에 대한 지속적인 의존성 극복에 대한 근본적인 문제점을 드러냅니다.
시사점, 한계점
•
시사점: 대규모 언어 모델의 시각적 이해 능력의 한계를 명확하게 보여주는 새로운 벤치마크를 제시합니다. 시각 정보 기반 추론의 중요성을 강조하며, 향후 모델 개발 방향을 제시합니다. 물리학 교육 및 평가 도구로 활용 가능성을 제시합니다.
•
한계점: 현재 벤치마크는 물리학 문제에 국한되어 있으며, 다른 영역으로의 일반화 가능성에 대한 추가 연구가 필요합니다. 다이어그램의 복잡성과 다양성이 모델 성능에 미치는 영향에 대한 심층적인 분석이 필요합니다. 벤치마크의 문제 구성 및 평가 방식에 대한 객관적인 검증이 필요합니다.