Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

Created by
  • Haebom

저자

Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang

개요

SeePhys는 중학교 수준부터 박사 자격 시험 수준까지의 물리학 문제를 다루는 대규모 다중 모드 벤치마크입니다. 7개의 기본 물리학 분야와 21개의 이질적인 다이어그램 범주를 포함하며, 시각적 정보 추출이 정답 도출에 필수적인 문제(75%)가 상당수 포함되어 있습니다. 기존 연구와 달리 시각 요소가 보조적인 역할을 하지 않고 문제 해결에 핵심적인 역할을 합니다. Gemini-2.5-pro 및 o4-mini와 같은 최첨단 시각 추론 모델조차도 60% 미만의 정확도를 보여, 현재 LLM의 시각적 이해 능력, 특히 다이어그램 해석과 물리적 추론 간의 엄격한 결합 및 텍스트 단서에 대한 과도한 의존성 문제를 드러냅니다.

시사점, 한계점

시사점: LLM의 시각적 이해 능력, 특히 다이어그램 해석과 물리적 추론의 통합 및 텍스트 단서에 대한 과도한 의존성 문제를 명확히 보여주는 대규모 다중 모드 벤치마크를 제시합니다. 현재 LLM의 한계를 극복하기 위한 연구 방향을 제시합니다.
한계점: 벤치마크의 문제 유형 및 난이도가 특정 분야에 치우쳐 있을 가능성이 있습니다. 다양한 유형의 시각 정보와 물리학 문제를 더욱 포괄적으로 포함하는 것이 향후 개선 과제입니다.
👍