Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Medical large language models are easily distracted

Created by
  • Haebom

저자

Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann

개요

본 논문은 실제 의료 환경의 잡음(ambient dictation 등으로 생성되는 추가적인 정보)이 대규모 언어 모델(LLM)의 의료 진단 성능에 미치는 영향을 평가하기 위해 MedDistractQA 벤치마크를 개발하고 실험한 연구입니다. USMLE 스타일 질문에 의료적으로 무관한 정보를 추가하여 LLM의 성능을 측정한 결과, 무관한 정보는 LLM의 정확도를 최대 17.9%까지 감소시키는 것으로 나타났습니다. Retrieval-augmented generation (RAG)이나 의료 데이터 fine-tuning과 같은 기존의 성능 개선 기법들은 이러한 문제를 해결하지 못했고, 오히려 성능을 저하시키는 경우도 있었습니다. 이를 통해 LLM이 본질적으로 관련 정보와 무관한 정보를 구분하는 논리적 메커니즘이 부족함을 시사합니다.

시사점, 한계점

시사점:
실제 의료 환경의 잡음이 LLM의 의료 진단 성능에 상당한 부정적 영향을 미친다는 것을 밝힘.
기존의 성능 개선 기법들이 이 문제에 대한 효과적인 해결책이 되지 못함을 보임.
LLM의 의료 응용을 위해서는 잡음에 대한 강인성을 높이는 새로운 전략이 필요함을 강조.
MedDistractQA 벤치마크는 LLM의 잡음 내성을 평가하는 유용한 도구가 될 수 있음.
한계점:
MedDistractQA 벤치마크는 시뮬레이션된 잡음을 사용했으므로 실제 의료 환경과의 차이가 존재할 수 있음.
평가에 사용된 LLM의 종류와 버전이 제한적일 수 있음.
탐구된 성능 개선 기법의 종류가 제한적일 수 있음.
👍