# Benchmarking and Adapting On-Device LLMs for Clinical Decision Support

### 저자

Alif Munim, Jun Ma, Omar Ibrahim, Alhusain Abdalla, Shuolin Yin, Leo Chen, Bo Wang

### 💡 개요

본 연구는 환자 정보 보호 및 클라우드 의존성 문제를 해결하기 위해 온디바이스 LLM을 임상 의사결정 지원에 활용하는 방안을 탐색합니다. gpt-oss, Qwen3.5, Gemma 4와 같은 온디바이스 LLM의 성능을 다양한 임상 과제에서 평가하고, 이를 최신 상용 및 오픈소스 모델과 비교합니다. 또한, 파인튜닝을 통해 온디바이스 LLM의 적응성을 높여 임상 적용 가능성을 확인했습니다.

### 🔑 시사점 및 한계

- 온디바이스 LLM은 클라우드 기반 모델에 비해 성능 저하 없이 프라이버시를 보호하며 임상 의사결정 지원에 활용될 수 있습니다.

- 파인튜닝은 온디바이스 LLM의 진단 정확도를 크게 향상시켜 상용 모델에 근접하는 성능을 보여줍니다.

- 현재 온디바이스 LLM의 오류는 임상적으로 타당한 추론의 범주 내에 있으며, 정답 선택 개선을 통해 더 높은 정확도 달성이 가능합니다.

- 대규모 모델의 제약으로 인해 특정 임상 환경에서의 활용 가능성은 여전히 제한적일 수 있으며, 다양한 임상 시나리오에 대한 지속적인 평가와 최적화가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2601.03266)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).