SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning
Created by
Haebom
저자
Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
개요
SeePhys는 중학교 수준부터 박사 자격 시험 수준까지의 물리학 문제를 다루는 대규모 다중 모달 벤치마크입니다. 7가지 기본 물리학 분야와 21가지의 다양한 다이어그램 범주를 포함하며, 문제의 75%가 시각 정보의 추출을 필수로 하는 시각 중심 문제입니다. 기존 연구와 달리 시각 요소가 보조적인 역할만 하는 것이 아니라 핵심적인 역할을 합니다. 최첨단 시각 추론 모델조차 SeePhys 벤치마크에서 60% 미만의 정확도를 보였으며, 이는 현재의 대규모 언어 모델의 시각적 이해 능력, 특히 다이어그램 해석과 물리적 추론의 엄격한 결합 및 텍스트 단서에 대한 과도한 의존성에 대한 근본적인 문제점을 드러냅니다.
시사점, 한계점
•
시사점: 대규모 언어 모델의 시각적 추론 능력의 한계를 명확히 보여주는 새로운 벤치마크 제시. 시각 정보 처리와 물리적 추론의 통합에 대한 중요성 강조. 향후 시각적 추론 모델 개발을 위한 중요한 기준 마련.
•
한계점: 현재 벤치마크의 문제 범위가 물리학 분야에 국한됨. 다른 분야로의 확장성 연구 필요. 벤치마크의 문제 난이도 및 다양성에 대한 추가적인 연구 필요.