WebLLM: A High-Performance In-Browser LLM Inference Engine

Created by

Haebom

저자

Charlie F. Ruan, Yucheng Qin, Akaash R. Parthasarathy, Xun Zhou, Ruihang Lai, Hongyi Jin, Yixin Dong, Bohan Hou, Meng-Shiun Yu, Yiyan Zhai, Sudeep Agarwal, Hangrui Cao, Siyuan Feng, Tianqi Chen

💡 개요

이 연구는 웹 브라우저 내에서 대규모 언어 모델(LLM)을 효율적으로 추론할 수 있는 고성능 JavaScript 프레임워크인 WebLLM을 제안합니다. WebLLM은 WebGPU와 WebAssembly를 활용하여 GPU 및 CPU 가속을 지원하며, 이를 통해 기존 클라우드 기반 추론 방식에 대한 대안을 제시합니다. 평가 결과, WebLLM은 동일 기기에서 네이티브 성능의 최대 80%까지 유지하여, 브라우저 기반 LLM 애플리케이션의 가능성을 열었습니다.

🔑 시사점 및 한계

•

보편적 접근성 및 개인 정보 보호: 서버 인프라나 별도의 설치 없이 웹 브라우저만 있으면 LLM 기능을 사용할 수 있어 접근성이 높고, 데이터가 로컬에서 처리되어 개인 정보 보호에 유리합니다.

•

로컬 및 개인화된 LLM 애플리케이션: 웹 브라우저 내에서 LLM을 구동함으로써 사용자는 더욱 개인화되고 로컬 자원을 활용하는 다양한 LLM 기반 애플리케이션을 경험할 수 있습니다.

•

성능 격차 축소 및 WebGPU 커널 최적화: 아직 네이티브 성능과의 격차가 존재하지만, MLC-LLM 및 Apache TVM과 같은 머신러닝 컴파일러를 통해 WebGPU 커널을 최적화하여 성능을 지속적으로 개선할 여지가 있습니다.

PDF 보기

Made with Slashpage