Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

Created by
  • Haebom

저자

Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang

개요

SeePhys는 중학교 수준부터 박사 자격 시험 수준까지의 물리학 문제를 다루는 대규모 다중 모달 벤치마크입니다. 7개의 기본 물리학 분야와 21개의 다양한 다이어그램 범주를 포함하며, 문제의 75%가 시각 정보 추출이 필수적인 시각 중심 문제입니다. 최첨단 시각 추론 모델조차 SeePhys 벤치마크에서 60% 미만의 정확도를 보여, LLM의 시각적 이해 능력, 특히 다이어그램 해석과 물리적 추론 간의 엄격한 결합 및 텍스트 단서에 대한 과도한 의존성에 대한 근본적인 문제점을 드러냅니다.

시사점, 한계점

시사점: LLM의 시각적 이해 능력, 특히 다이어그램 해석과 물리적 추론의 통합 및 텍스트 단서에 대한 과도한 의존성에 대한 심각한 한계를 제시합니다. 현재 LLM의 시각 추론 능력의 수준을 객관적으로 평가할 수 있는 벤치마크를 제공합니다.
한계점: SeePhys 벤치마크가 물리학 분야에 특화되어 있어 다른 분야로의 일반화 가능성이 제한적일 수 있습니다. 벤치마크의 문제 구성 및 난이도 설정에 대한 객관적인 기준이 명확하게 제시되지 않을 수 있습니다.
👍