Medical large language models are easily distracted
Created by
Haebom
저자
Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann
개요
본 논문은 실제 의료 환경의 잡음(ambient dictation 등으로 생성되는 추가적인 정보)이 대규모 언어 모델(LLM)의 의료 진단 성능에 미치는 영향을 평가하기 위해 MedDistractQA 벤치마크를 개발하고 실험한 연구입니다. USMLE 스타일 질문에 의료적으로 무관한 정보를 추가하여 LLM의 성능을 측정한 결과, 무관한 정보는 LLM의 정확도를 최대 17.9%까지 감소시키는 것으로 나타났습니다. Retrieval-augmented generation (RAG)이나 의료 데이터 fine-tuning과 같은 기존의 성능 개선 기법들은 이러한 문제를 해결하지 못했고, 오히려 성능을 저하시키는 경우도 있었습니다. 이를 통해 LLM이 본질적으로 관련 정보와 무관한 정보를 구분하는 논리적 메커니즘이 부족함을 시사합니다.
시사점, 한계점
•
시사점:
◦
실제 의료 환경의 잡음이 LLM의 의료 진단 성능에 상당한 부정적 영향을 미친다는 것을 밝힘.
◦
기존의 성능 개선 기법들이 이 문제에 대한 효과적인 해결책이 되지 못함을 보임.
◦
LLM의 의료 응용을 위해서는 잡음에 대한 강인성을 높이는 새로운 전략이 필요함을 강조.
◦
MedDistractQA 벤치마크는 LLM의 잡음 내성을 평가하는 유용한 도구가 될 수 있음.
•
한계점:
◦
MedDistractQA 벤치마크는 시뮬레이션된 잡음을 사용했으므로 실제 의료 환경과의 차이가 존재할 수 있음.