SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning
Created by
Haebom
저자
Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
개요
SeePhys는 중학교 수준부터 박사 자격 시험 수준까지의 물리학 문제를 다루는 대규모 다중 모달 벤치마크입니다. 7개의 기본 물리학 분야와 21개의 다양한 다이어그램 범주를 포함하며, 문제의 75%가 시각 정보 추출을 필수로 하는 시각 중심 문제입니다. 최첨단 시각 추론 모델조차도 SeePhys 벤치마크에서 60% 미만의 정확도를 보이며, 다이어그램 해석과 물리적 추론 간의 엄격한 결합 및 텍스트 단서에 대한 과도한 의존성 문제를 드러냅니다.
시사점, 한계점
•
시사점: 현존하는 대규모 언어 모델의 시각적 이해 능력의 한계를 명확히 보여주는 벤치마크 제공. 다이어그램 해석과 물리적 추론의 통합 및 텍스트 단서에 대한 과도한 의존성 문제 제기. 시각적 추론 모델 개발을 위한 새로운 기준 제시.
•
한계점: 벤치마크의 문제 난이도 및 구성이 특정 분야에 치우쳐 있을 가능성. 실제 물리학 문제 해결 과정과의 차이점 존재 가능성. 다양한 유형의 시각 자료를 더 포함하여 일반화 성능을 높일 필요성.