PhyX는 시각적 시나리오에서 물리적 추론 능력을 평가하기 위해 고안된 최초의 대규모 벤치마크입니다. 6가지 추론 유형과 25개의 하위 도메인, 그리고 열역학, 전자기학, 역학, 현대 물리학, 광학, 파동 및 음향 등 6개의 핵심 물리학 도메인을 아우르는 3,000개의 정교하게 큐레이션된 다중 모드 질문으로 구성됩니다. 기존 벤치마크들이 물리적 추론, 즉 도메인 지식, 기호적 추론, 실제 세계 제약 조건에 대한 이해를 통합하는 능력을 포착하지 못한다는 점을 해결하기 위해 개발되었습니다. 평가 결과, 최첨단 모델들조차 물리적 추론에서 상당한 어려움을 겪는 것으로 나타났습니다. GPT-4, Claude 3.7-Sonnet, GPT-4-mini의 정확도는 각각 32.5%, 42.2%, 45.8%에 불과하며, 전문가에 비해 29% 이상의 성능 차이를 보였습니다. 분석 결과, 현재 모델의 한계로는 암기된 학문적 지식에 대한 과도한 의존, 수학적 공식에 대한 과도한 의존, 진정한 물리적 이해보다는 표면적인 시각적 패턴 매칭 등이 드러났습니다. 본 논문에서는 세부 통계, 상세한 사례 연구, 다양한 평가 패러다임을 통해 물리적 추론 능력을 철저히 조사합니다. 재현성을 보장하기 위해 VLMEvalKit과 같은 널리 사용되는 툴킷을 기반으로 호환 가능한 평가 프로토콜을 구현하여 원클릭 평가를 가능하게 합니다.