Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Truth, Trust, and Trouble: Medical AI on the Edge

Created by
  • Haebom

저자

Mohammad Anas Azeez, Rafiq Ali, Ebad Shabbir, Zohaib Hasan Siddiqui, Gautam Siddharth Kashyap, Jiechao Gao, Usman Naseem

개요

대규모 언어 모델(LLM)이 자동화된 의료 질문 응답을 통해 디지털 헬스케어를 혁신할 가능성이 있지만, 특히 오픈 소스 솔루션의 경우 사실 정확성, 유용성 및 안전성에 대한 산업 표준을 충족하는 것이 어렵다. 1,000개 이상의 건강 관련 질문 데이터 세트를 사용하여 엄격한 벤치마킹 프레임워크를 제시한다. 정직성, 유용성 및 무해성을 기준으로 모델 성능을 평가한다. Mistral-7B, BioMistral-7B-DARE 및 AlpaCare-13B 모델 간의 사실적 신뢰성과 안전성 간의 상충 관계를 강조한다. AlpaCare-13B가 가장 높은 정확도(91.7%)와 무해성(0.92)을 달성했고, BioMistral-7B-DARE의 도메인별 튜닝은 규모가 작음에도 불구하고 안전성(0.90)을 향상시켰다. Few-shot 프롬프팅은 정확도를 78%에서 85%로 향상시켰으며, 모든 모델은 복잡한 질문에 대한 유용성이 감소하여 임상 QA에서 지속적인 과제를 보여주었다.

시사점, 한계점

AlpaCare-13B는 높은 정확도와 무해성을 달성했다.
BioMistral-7B-DARE의 도메인별 튜닝은 안전성을 향상시켰다.
Few-shot 프롬프팅은 정확도를 향상시켰다.
모든 모델은 복잡한 질문에 대한 유용성이 감소했다.
모델 간의 사실적 신뢰성과 안전성 간의 상충 관계가 존재한다.
👍