# Enabling On-Device Medical AI Assistants via Input-Driven Saliency Adaptation

### 저자

Uttej Kallakurik, Edward Humes, Rithvik Jonna, Xiaomin Lin, Tinoosh Mohsenin

### 개요

본 논문은 실시간 의료 환경과 같이 자원이 제한된 환경에서의 대규모 언어 모델(LLM) 배포를 위한 새로운 의료 보조 시스템을 제시한다.  일반 목적 압축 프레임워크를 통해 최적화된 이 시스템은 특정 영역에 맞춰 LLM을 조정한다.  도메인 특정 데이터에서 뉴런 중요도를 측정하여 관련 없는 뉴런을 과감하게 제거하여 모델 크기를 줄이면서 성능을 유지한다.  이후, 사후 훈련 양자화를 적용하여 메모리 사용량을 더 줄이고, MedMCQA, MedQA, PubMedQA를 포함한 의료 벤치마크에서 압축된 모델을 평가한다.  또한, 50% 압축된 Gemma 모델과 67% 압축된 LLaMA3 모델을 Jetson Orin Nano와 Raspberry Pi 5에 배포하여 하드웨어 제약 조건 하에서 실시간, 에너지 효율적인 추론을 달성한다.

### 시사점, 한계점

- **시사점:**

    - 제한된 자원 환경에서도 LLM을 활용한 실시간 의료 보조 시스템 구현 가능성 제시.

    - 뉴런 중요도 측정 기반의 효과적인 모델 압축 기법 제안.

    - 압축된 모델의 실제 하드웨어(Jetson Orin Nano, Raspberry Pi 5) 상에서의 실시간 추론 성공 사례 제시.

    - 에너지 효율적인 의료 LLM 배포 방안 제시.

- **한계점:**

    - 제안된 압축 프레임워크의 일반화 가능성에 대한 추가 연구 필요.

    - 다양한 의료 데이터셋 및 임상 환경에서의 성능 검증 필요.

    - 압축 과정에서 발생할 수 있는 성능 저하에 대한 더 자세한 분석 필요.

    - 특정 하드웨어에 대한 최적화로 인한 다른 하드웨어 플랫폼으로의 확장성 문제.

[PDF 보기](https://arxiv.org/pdf/2506.11105)

![https://i.imgur.com/BlLm9jT.jpeg](https://i.imgur.com/BlLm9jT.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).