Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

It is Too Many Options: Pitfalls of Multiple-Choice Questions in Generative AI and Medical Education

Created by
  • Haebom
Category
Empty

저자

Shrutika Singh, Anton Alyakin, Daniel Alexander Alber, Jaden Stryker, Ai Phuong S Tong, Karl Sangwon, Nicolas Goff, Mathew de la Paz, Miguel Hernandez-Rovira, Ki Yun Park, Eric Claude Leuthardt, Eric Karl Oermann

개요

본 논문은 대규모 언어 모델(LLM)의 의학적 능력을 평가하는 데 자주 사용되는 다지선다형 질문(MCQ) 벤치마크의 신뢰성에 의문을 제기한다. 연구진은 LLM의 MCQ 성능이 의학적 지식과 추론 능력을 넘어선 요인에 의해 좌우될 수 있다는 가설을 세우고, 다지선다형 질문과 짝을 이룬 자유 답변형 질문으로 구성된 새로운 벤치마크(FreeMedQA)를 개발했다. GPT-4o, GPT-3.5, LLama-3-70B-instruct 세 가지 최첨단 LLM을 평가한 결과, 자유 답변형 질문에 대한 성능이 다지선다형 질문에 비해 평균 39.43% 감소하는 것을 발견했으며(p = 1.3 * 10-5), 이는 인간의 성능 저하(22.29%)보다 더 컸다. 질문 문구의 일부를 차례로 가리는 실험을 통해 MCQ 형식의 영향을 분석한 결과, 질문 문구를 완전히 가린 경우에도 LLM의 다지선다형 질문 정답률은 무작위보다 높았지만(평균 6.70%, p = 0.002), 자유 답변형 질문에 대한 성능은 거의 0에 가까웠다. 이는 LLM의 의학적 능력을 과대평가하는 의학 MCQ 벤치마크의 한계를 강조하고, LLM을 이용한 자유 답변형 질문 평가를 통해 인간과 기계 평가 모두를 개선할 가능성을 시사한다.

시사점, 한계점

시사점:
의학 MCQ 벤치마크는 LLM의 의학적 능력을 과대평가할 수 있다는 사실을 밝힘.
LLM을 이용한 자유 답변형 질문 평가가 인간과 기계 평가를 개선하는 데 기여할 수 있음을 제시.
MCQ 형식 자체가 LLM 성능에 상당한 영향을 미친다는 것을 보여줌.
FreeMedQA와 같은 새로운 벤치마크의 필요성을 강조.
한계점:
본 연구에서 사용된 LLM의 종류가 제한적임.
FreeMedQA 벤치마크의 일반화 가능성에 대한 추가 연구가 필요함.
자유 답변형 질문 채점의 객관성 및 신뢰도 확보 방안에 대한 추가 연구 필요.
👍