# MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale Deployment

### 저자

Hanxian Huang, Igor Fedorov, Andrey Gromov, Bernard Beckerman, Naveen Suda, David Eriksson, Maximilian Balandat, Rylan Conway, Patrick Huber, Chinnadhurai Sankar, Ayushi Dalmia, Zechun Liu, Lemeng Wu, Tarek Elgamal, Adithya Sagar, Vikas Chandra, Raghuraman Krishnamoorthi

### 💡 개요

본 논문은 실시간 AI 경험을 위해 자원 제약적인 모바일 환경에 최적화된 온디바이스 대규모 언어 모델(OD-LLM) 설계 방법론을 제안합니다. 하드웨어-인-더-루프 아키텍처 탐색과 주의 메커니즘 대신 주의 스킵(attention skipping)을 활용하여 낮은 지연 시간과 높은 품질을 동시에 달성하는 모델을 개발했습니다. 이를 통해 산업 규모 배포가 가능하고 표준 모바일 런타임과 호환되는 MobileLLM-Flash 모델군을 선보이며, 모바일 CPU에서 기존 모델 대비 최대 1.8배 빠른 추론 속도를 달성했습니다.

### 🔑 시사점 및 한계

- 모바일 환경에서 실시간 성능을 제공하는 OD-LLM 설계의 실질적인 방법론을 제시합니다.

- 사전 학습된 모델의 가중치를 활용하고 효율적인 탐색 과정을 통해 높은 정확도를 유지하면서도 개발 비용을 절감합니다.

- OD-LLM 설계에 대한 실행 가능한 원칙을 제공하여 향후 연구 및 개발에 기여합니다.

- 본 연구에서 사용된 특정 하드웨어 및 런타임에 대한 성능 특성이 달라질 수 있으며, 더 넓은 범위의 하드웨어 및 런타임에 대한 일반화 가능성 검증이 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2603.15954)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).