본 논문은 다국어 및 다중 모드 성능을 갖춘 대규모 언어 모델 기반 인공지능 시스템인 GPT-4o를 다양한 언어와 과목 범주를 포함하는 다양한 물리 개념 목록을 사용하여 조사합니다. PhysPort 웹사이트에서 가져온 목록에는 역학, 전자기학, 광학, 열역학과 같은 고전 물리학 주제뿐만 아니라 상대성 이론, 양자 역학, 천문학, 수학 및 실험 기술이 포함됩니다. 이전의 텍스트 전용 연구와 달리, 학생들이 종이에서 보는 것을 반영하기 위해 이미지로 목록을 업로드하여 시스템의 다중 모드 기능을 평가했습니다. 연구 결과 과목별로 성능 차이가 있으며, 실험 기술이 가장 약한 것으로 나타났습니다. 또한 언어에 따라 차이가 있으며, 영어와 유럽 언어가 가장 높은 성능을 보였습니다. 특히, 목록 항목의 상대적인 난이도는 설문 조사의 언어와 크게 무관합니다. AI 결과를 기존 학생 성적에 대한 문헌과 비교할 때, AI 시스템은 실험 기술을 제외한 모든 과목에서 평균 수업 후 학부생보다 성능이 우수한 것으로 나타났습니다. 또한, AI는 순전히 텍스트 기반 항목보다 이미지의 시각적 해석이 필요한 항목에서 성능이 저하되었습니다.