SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning
Created by
Haebom
저자
Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
개요
SeePhys는 중학교 수준부터 박사 자격 시험 수준까지의 물리학 문제를 다루는 대규모 다중 모드 벤치마크입니다. 7개의 기본 물리학 분야와 21개의 이질적인 다이어그램 범주를 포함하며, 시각적 정보 추출이 정답 도출에 필수적인 문제(75%)가 상당수 포함되어 있습니다. 기존 연구와 달리 시각 요소가 보조적인 역할을 하지 않고 문제 해결에 핵심적인 역할을 합니다. Gemini-2.5-pro 및 o4-mini와 같은 최첨단 시각 추론 모델조차도 60% 미만의 정확도를 보여, 현재 LLM의 시각적 이해 능력, 특히 다이어그램 해석과 물리적 추론 간의 엄격한 결합 및 텍스트 단서에 대한 과도한 의존성 문제를 드러냅니다.
시사점, 한계점
•
시사점: LLM의 시각적 이해 능력, 특히 다이어그램 해석과 물리적 추론의 통합 및 텍스트 단서에 대한 과도한 의존성 문제를 명확히 보여주는 대규모 다중 모드 벤치마크를 제시합니다. 현재 LLM의 한계를 극복하기 위한 연구 방향을 제시합니다.
•
한계점: 벤치마크의 문제 유형 및 난이도가 특정 분야에 치우쳐 있을 가능성이 있습니다. 다양한 유형의 시각 정보와 물리학 문제를 더욱 포괄적으로 포함하는 것이 향후 개선 과제입니다.