Sign In

Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning

Created by
  • Haebom
Category
Empty

저자

Yuhao Zhou, Yiheng Wang, Xuming He, Ao Shen, Ruoyao Xiao, Zhiwei Li, Qiantai Feng, Zijie Guo, Yuejin Yang, Hao Wu, Wenxuan Huang, Jiaqi Wei, Dan Si, Xiuqi Yao, Jia Bu, Haiwen Huang, Manning Wang, Tianfan Fu, Shixiang Tang, Ben Fei, Dongzhan Zhou, Fenghua Ling, Yan Lu, Siqi Sun, Chenhui Li, Guanjie Zheng, Jiancheng Lv, Wenlong Zhang, Lei Bai

개요

본 논문은 정보 집약적인 과학 데이터와 도메인 전문 지식을 기반으로 하는 복잡한 멀티모달 추론에 의존하는 과학적 발견의 증가에 주목한다. 전문가 수준의 과학적 벤치마크를 통해 과학적 멀티모달 대규모 언어 모델(MLLM)이 실제 워크플로우에서 이 발견 프로세스를 크게 향상시킬 수 있는 잠재력을 가지고 있음을 강조한다. 그러나 현재 과학적 벤치마크는 MLLM의 지식 이해 능력을 평가하는 데 중점을 두어 인식 및 추론 능력을 제대로 평가하지 못하는 한계가 있다. 이러한 격차를 해결하기 위해, 본 논문은 과학적 신호 인식, 과학적 속성 이해, 과학적 비교 추론의 세 가지 상호 연결된 수준을 통해 MLLM의 과학적 인지 능력을 평가하도록 설계된 Scientists' First Exam (SFE) 벤치마크를 제시한다. SFE는 5개의 가치 있는 분야에 걸쳐 66개의 멀티모달 태스크를 포괄하며, 3가지 유형의 질문에 대한 830개의 전문가 검증 VQA 쌍으로 구성된다. 실험 결과, 최신 GPT-o3 및 InternVL-3가 SFE에서 각각 34.08% 및 26.52%의 성능을 보여 MLLM의 과학 분야 개선 여지가 크다는 것을 시사한다. SFE에서 얻은 통찰력이 AI 기반 과학적 발견의 추가 발전을 촉진할 것으로 기대한다.

시사점, 한계점

시사점:
MLLM의 과학적 인지 능력 평가를 위한 새로운 벤치마크 (SFE) 제시
SFE를 통해 현재 MLLM의 과학적 인식 및 추론 능력의 한계점을 명확히 함
AI 기반 과학적 발견 분야의 발전을 위한 기반 마련
한계점:
제시된 벤치마크가 특정 분야(5개 분야)에 국한될 수 있음
최신 모델(GPT-o3, InternVL-3)을 대상으로 한 평가만 진행됨
향후 추가적인 모델 및 분야 확장이 필요
👍