[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BEnchmarking LLMs for Ophthalmology (BELO) for Ophthalmological Knowledge and Reasoning

Created by
  • Haebom

저자

Sahana Srinivasan, Xuguang Ai, Thaddaeus Wai Soon Lo, Aidan Gilson, Minjie Zou, Ke Zou, Hyunjae Kim, Mingjia Yang, Krithi Pushpanathan, Samantha Yew, Wan Ting Loke, Jocelyn Goh, Yibing Chen, Yiming Kong, Emily Yuelei Fu, Michelle Ongyong Hui, Kristen Nwanyanwu, Amisha Dave, Kelvin Zhenghao Li, Chen-Hsin Sun, Mark Chia, Gabriel Dawei Yang, Wendy Meihua Wong, David Ziyou Chen, Dianbo Liu, Maxwell Singer, Fares Antaki, Lucian V Del Priore, Jost Jonas, Ron Adelman, Qingyu Chen, Yih-Chung Tham

개요

안과 분야에서 대규모 언어 모델(LLM)을 평가하는 기존 벤치마크는 범위가 제한적이고 정확도에 지나치게 중점을 둡니다. 본 논문에서는 13명의 안과 전문의가 여러 차례 전문가 검토를 거쳐 개발된 표준화되고 종합적인 평가 벤치마크인 BELO(BEnchmarking LLMs for Ophthalmology)를 제시합니다. BELO는 안과 관련 임상 정확도와 추론 품질을 평가합니다. 키워드 매칭 및 미세 조정된 PubMedBERT 모델을 사용하여 다양한 의료 데이터 세트(BCSC, MedMCQA, MedQA, BioASQ 및 PubMedQA)에서 안과 관련 다지선다형 질문(MCQ)을 엄선했습니다. 데이터 세트는 여러 차례 전문가 검토를 거쳤으며, 중복 및 저품질 질문은 체계적으로 제거되었습니다. 10명의 안과 전문의가 각 MCQ 정답에 대한 설명을 개선했고, 3명의 수석 안과 전문의가 추가로 심사했습니다. BELO의 유용성을 보여주기 위해 정확도, 매크로 F1 및 5가지 텍스트 생성 지표(ROUGE-L, BERTScore, BARTScore, METEOR 및 AlignScore)를 사용하여 6개의 LLM(OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B 및 Gemini 1.5 Pro)을 평가했습니다. 또한, 2명의 안과 전문의가 무작위로 선택된 50개의 출력에 대해 정확성, 포괄성 및 완전성을 질적으로 검토하는 추가 평가를 수행했습니다. BELO는 5가지 출처(BCSC(260개), BioASQ(10개), MedMCQA(572개), MedQA(40개), PubMedQA(18개))에서 집계된 900개의 고품질 전문가 검토 질문으로 구성됩니다. 투명한 평가 및 보고를 장려하기 위해 공개 리더보드가 마련되었으며, BELO 데이터 세트는 향후 모델의 공정하고 재현 가능한 비교를 보장하기 위해 홀드아웃 평가 전용 벤치마크로 유지됩니다.

시사점, 한계점

시사점: 안과 분야 LLM 평가를 위한 표준화되고 종합적인 벤치마크 제공, 전문가 검토를 통한 고품질 데이터 세트 구축, 다양한 LLM의 성능 비교 및 투명한 평가 환경 조성, 향후 LLM 개발의 방향 제시.
한계점: 현재 벤치마크에 포함된 LLM의 종류가 제한적일 수 있음, 질적 평가 부분의 주관성 개입 가능성, 안과 영역 특수성으로 인한 일반화의 어려움, 데이터 세트의 지속적인 업데이트 및 확장 필요성.
👍