MedPAIR: Measuring Physicians and AI Relevance Alignment in Medical Question Answering
Created by
Haebom
저자
Yuexing Hao, Kumail Alhamoud, Hyewon Jeong, Haoran Zhang, Isha Puri, Philip Torr, Mike Schaekermann, Ariel D. Stern, Marzyeh Ghassemi
개요
본 논문은 의료 질의응답(QA) 과제에서 대규모 언어 모델(LLM)의 성능 평가를 위해 MedPAIR 데이터셋을 제시합니다. MedPAIR는 1,300개의 QA 쌍과 36명의 의사 수련의가 각 질문 문장의 관련성에 대해 주석을 달은 데이터로 구성됩니다. 본 연구는 의사 수련의와 LLM이 질문에 답변할 때 관련 정보를 어떻게 우선순위화하는지 비교 분석하고, 관련 없는 문장을 제거했을 때 의사 수련의와 LLM의 성능 변화를 평가합니다. LLM은 의사 수련의의 관련성 평가와 일치하지 않는 경우가 빈번하며, 관련 없는 문장을 제거하면 의사 수련의와 LLM 모두 정확도가 향상되는 것을 확인했습니다. 모든 LLM 및 의사 수련의 레이블 데이터는 http://medpair.csail.mit.edu/ 에서 이용 가능합니다.