본 논문은 다국어 및 다중 모드 성능을 갖춘 대규모 언어 모델 기반 AI 시스템인 GPT-4o의 물리 개념에 대한 이해도를 평가한 연구입니다. PhysPort 웹사이트에서 가져온 다양한 언어와 과목 범주를 아우르는 여러 물리 개념 목록을 사용하여 역학, 전자기학, 광학, 열역학과 같은 고전 물리학 주제뿐 아니라 상대성 이론, 양자 역학, 천문학, 수학 및 실험 기술을 평가했습니다. 기존의 텍스트 기반 연구와 달리, 학생들이 종이에서 보는 것과 같이 이미지로 목록을 업로드하여 시스템의 다중 모드 기능을 평가했습니다. 그 결과, 과목 간 성능 차이가 있으며, 특히 실험 기술에서 가장 약한 성능을 보였습니다. 또한 언어 간에도 차이가 있으며, 영어와 유럽 언어에서 가장 강한 성능을 보였습니다. 특히, 목록 항목의 상대적 난이도는 설문 조사 언어와는 거의 무관합니다. AI 결과를 기존의 학생 성적에 대한 문헌과 비교했을 때, AI 시스템은 실험 기술을 제외한 모든 과목에서 평균적인 학부생보다 성적이 우수했습니다. 또한 AI는 순전히 텍스트 기반인 항목보다 이미지의 시각적 해석이 필요한 항목에서 성적이 더 낮았습니다. 탐색적 연구 결과는 GPT-4o가 물리 교육에 유용할 수 있음을 보여주지만, 강사가 AI 출력을 비판적으로 평가하는 학생들의 능력을 함양하고, AI 발전에 따라 교육 과정을 신중하게 조정하며, AI 통합과 관련된 형평성 문제를 해결해야 할 필요성을 강조합니다.