Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multilingual Performance of a Multimodal Artificial Intelligence System on Multisubject Physics Concept Inventories

Created by
  • Haebom

저자

Gerd Kortemeyer, Marina Babayeva, Giulia Polverini, Ralf Widenhorn, Bor Gregorcic

개요

본 논문은 다국어 및 다중 모드 성능을 갖춘 대규모 언어 모델 기반 인공지능 시스템인 GPT-4o를 다양한 언어와 과목 범주를 포함하는 다양한 물리 개념 목록을 사용하여 조사합니다. PhysPort 웹사이트에서 가져온 목록에는 역학, 전자기학, 광학, 열역학과 같은 고전 물리학 주제뿐만 아니라 상대성 이론, 양자 역학, 천문학, 수학 및 실험 기술이 포함됩니다. 이전의 텍스트 전용 연구와 달리, 학생들이 종이에서 보는 것을 반영하기 위해 이미지로 목록을 업로드하여 시스템의 다중 모드 기능을 평가했습니다. 연구 결과 과목별로 성능 차이가 있으며, 실험 기술이 가장 약한 것으로 나타났습니다. 또한 언어에 따라 차이가 있으며, 영어와 유럽 언어가 가장 높은 성능을 보였습니다. 특히, 목록 항목의 상대적인 난이도는 설문 조사의 언어와 크게 무관합니다. AI 결과를 기존 학생 성적에 대한 문헌과 비교할 때, AI 시스템은 실험 기술을 제외한 모든 과목에서 평균 수업 후 학부생보다 성능이 우수한 것으로 나타났습니다. 또한, AI는 순전히 텍스트 기반 항목보다 이미지의 시각적 해석이 필요한 항목에서 성능이 저하되었습니다.

시사점, 한계점

시사점:
GPT-4o는 다양한 언어와 물리학 과목에서 상당한 성능을 보이며, 특히 영어와 유럽 언어에서 강점을 보임.
평균 학부생보다 대부분의 물리학 과목에서 우수한 성능을 보임.
다중 모드 기능을 통해 이미지 기반 문제 해결 능력을 평가할 수 있음.
문제의 난이도는 언어와 무관하게 일정하게 나타남.
한계점:
실험 기술 과목에서 상대적으로 약한 성능을 보임.
이미지 해석이 필요한 문제에 대한 성능이 텍스트 기반 문제보다 저하됨.
GPT-4o의 성능 평가에 사용된 데이터셋의 범위 및 일반화 가능성에 대한 추가 연구 필요.
👍