Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Assessing LLMs' Performance: Insights from the Chinese Pharmacist Exam

Created by
  • Haebom
Category
Empty

저자

Xinran Wang, Boran Zhu, Shujuan Zhou, Ziwen Long, Dehua Zhou, Shu Zhang

개요

ChatGPT-4o와 DeepSeek-R1의 중국 약사 면허 시험(2017-2021년) 실제 문제에 대한 성능을 비교 연구. 총 2,306개의 객관식 문제를 사용했으며, DeepSeek-R1이 ChatGPT-4o보다 전반적으로 더 높은 정확도를 보임.

시사점, 한계점

DeepSeek-R1이 ChatGPT-4o보다 약사 면허 시험에서 더 높은 정확도를 보임.
DeepSeek-R1은 기초 및 임상 종합 모듈에서 일관된 강점을 보임.
AI를 이용한 형식적 평가에 대한 잠재적 활용 가능성을 제시.
법적, 윤리적으로 민감한 상황에서 인간의 감독의 필요성을 강조.
특정 연도별 성능 차이는 통계적으로 유의미하지 않음.
표나 이미지가 포함된 문제는 제외되어 모델의 모든 능력을 평가하지 못함.
👍