Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can Reasoning LLMs Enhance Clinical Document Classification?

Created by
  • Haebom

저자

Akram Mustafa, Usman Naseem, Mostafa Rahimi Azghadi

개요

본 연구는 MIMIC-IV 데이터셋을 사용하여 8개의 대규모 언어 모델(LLM)의 임상 진단 요약 분류 성능을 평가했습니다. 4개의 추론형 LLM (Qwen QWQ, Deepseek Reasoner, GPT-o3 Mini, Gemini 2.0 Flash Thinking)과 4개의 비추론형 LLM (Llama 3.3, GPT-4o Mini, Gemini 2.0 Flash, Deepseek Chat)을 비교 분석하였습니다. cTAKES를 사용하여 임상 기록을 구조화하고, 세 번의 실험을 통해 다수결 투표로 최종 예측을 결정했습니다. 그 결과, 추론형 모델이 비추론형 모델보다 정확도(71% vs 68%)와 F1 점수(67% vs 60%)에서 더 나은 성능을 보였으며, Gemini 2.0 Flash Thinking이 가장 높은 정확도(75%)와 F1 점수(76%)를 달성했습니다. 그러나 비추론형 모델은 더 높은 안정성(91% vs 84%)을 보였습니다. 성능은 ICD-10 코드에 따라 다양하게 나타났으며, 추론형 모델은 복잡한 경우에 뛰어났지만 추상적인 범주에서는 어려움을 겪었습니다. 결과적으로 정확도와 안정성 사이의 절충이 존재함을 시사하며, 하이브리드 접근 방식이 임상 코딩을 최적화할 수 있음을 제시합니다.

시사점, 한계점

시사점:
추론형 LLM이 비추론형 LLM보다 임상 진단 요약 분류에서 더 높은 정확도와 F1 점수를 달성했습니다.
Gemini 2.0 Flash Thinking이 가장 우수한 성능을 보였습니다.
비추론형 LLM은 추론형 LLM보다 더 높은 안정성을 보였습니다.
정확도와 안정성 사이의 절충 관계가 존재하며, 하이브리드 접근 방식이 필요할 수 있습니다.
한계점:
ICD-10 코드에 따라 성능 차이가 존재하며, 특히 추상적인 범주에서 어려움을 보였습니다.
다중 레이블 분류, 도메인 특화 미세 조정, 앙상블 방법 등 추가 연구가 필요합니다.
실제 임상 환경에서의 모델 신뢰성 향상을 위한 추가 연구가 필요합니다.
👍