It is Too Many Options: Pitfalls of Multiple-Choice Questions in Generative AI and Medical Education
Created by
Haebom
Category
Empty
저자
Shrutika Singh, Anton Alyakin, Daniel Alexander Alber, Jaden Stryker, Ai Phuong S Tong, Karl Sangwon, Nicolas Goff, Mathew de la Paz, Miguel Hernandez-Rovira, Ki Yun Park, Eric Claude Leuthardt, Eric Karl Oermann
개요
본 논문은 대규모 언어 모델(LLM)의 의학적 능력을 평가하는 데 자주 사용되는 다지선다형 질문(MCQ) 벤치마크의 신뢰성에 의문을 제기한다. 연구진은 LLM의 MCQ 성능이 의학적 지식과 추론 능력을 넘어선 요인에 의해 좌우될 수 있다는 가설을 세우고, 다지선다형 질문과 짝을 이룬 자유 답변형 질문으로 구성된 새로운 벤치마크(FreeMedQA)를 개발했다. GPT-4o, GPT-3.5, LLama-3-70B-instruct 세 가지 최첨단 LLM을 평가한 결과, 자유 답변형 질문에 대한 성능이 다지선다형 질문에 비해 평균 39.43% 감소하는 것을 발견했으며(p = 1.3 * 10-5), 이는 인간의 성능 저하(22.29%)보다 더 컸다. 질문 문구의 일부를 차례로 가리는 실험을 통해 MCQ 형식의 영향을 분석한 결과, 질문 문구를 완전히 가린 경우에도 LLM의 다지선다형 질문 정답률은 무작위보다 높았지만(평균 6.70%, p = 0.002), 자유 답변형 질문에 대한 성능은 거의 0에 가까웠다. 이는 LLM의 의학적 능력을 과대평가하는 의학 MCQ 벤치마크의 한계를 강조하고, LLM을 이용한 자유 답변형 질문 평가를 통해 인간과 기계 평가 모두를 개선할 가능성을 시사한다.
시사점, 한계점
•
시사점:
◦
의학 MCQ 벤치마크는 LLM의 의학적 능력을 과대평가할 수 있다는 사실을 밝힘.
◦
LLM을 이용한 자유 답변형 질문 평가가 인간과 기계 평가를 개선하는 데 기여할 수 있음을 제시.