Sign In

WebLLM: A High-Performance In-Browser LLM Inference Engine

Created by
  • Haebom
Category
Empty

์ €์ž

Charlie F. Ruan, Yucheng Qin, Akaash R. Parthasarathy, Xun Zhou, Ruihang Lai, Hongyi Jin, Yixin Dong, Bohan Hou, Meng-Shiun Yu, Yiyan Zhai, Sudeep Agarwal, Hangrui Cao, Siyuan Feng, Tianqi Chen

๐Ÿ’ก ๊ฐœ์š”

์ด ์—ฐ๊ตฌ๋Š” ์›น ๋ธŒ๋ผ์šฐ์ € ๋‚ด์—์„œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ํšจ์œจ์ ์œผ๋กœ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ ์„ฑ๋Šฅ JavaScript ํ”„๋ ˆ์ž„์›Œํฌ์ธ WebLLM์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. WebLLM์€ WebGPU์™€ WebAssembly๋ฅผ ํ™œ์šฉํ•˜์—ฌ GPU ๋ฐ CPU ๊ฐ€์†์„ ์ง€์›ํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ํด๋ผ์šฐ๋“œ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋ฐฉ์‹์— ๋Œ€ํ•œ ๋Œ€์•ˆ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ํ‰๊ฐ€ ๊ฒฐ๊ณผ, WebLLM์€ ๋™์ผ ๊ธฐ๊ธฐ์—์„œ ๋„ค์ดํ‹ฐ๋ธŒ ์„ฑ๋Šฅ์˜ ์ตœ๋Œ€ 80%๊นŒ์ง€ ์œ ์ง€ํ•˜์—ฌ, ๋ธŒ๋ผ์šฐ์ € ๊ธฐ๋ฐ˜ LLM ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋ณดํŽธ์  ์ ‘๊ทผ์„ฑ ๋ฐ ๊ฐœ์ธ ์ •๋ณด ๋ณดํ˜ธ: ์„œ๋ฒ„ ์ธํ”„๋ผ๋‚˜ ๋ณ„๋„์˜ ์„ค์น˜ ์—†์ด ์›น ๋ธŒ๋ผ์šฐ์ €๋งŒ ์žˆ์œผ๋ฉด LLM ๊ธฐ๋Šฅ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์–ด ์ ‘๊ทผ์„ฑ์ด ๋†’๊ณ , ๋ฐ์ดํ„ฐ๊ฐ€ ๋กœ์ปฌ์—์„œ ์ฒ˜๋ฆฌ๋˜์–ด ๊ฐœ์ธ ์ •๋ณด ๋ณดํ˜ธ์— ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋กœ์ปฌ ๋ฐ ๊ฐœ์ธํ™”๋œ LLM ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜: ์›น ๋ธŒ๋ผ์šฐ์ € ๋‚ด์—์„œ LLM์„ ๊ตฌ๋™ํ•จ์œผ๋กœ์จ ์‚ฌ์šฉ์ž๋Š” ๋”์šฑ ๊ฐœ์ธํ™”๋˜๊ณ  ๋กœ์ปฌ ์ž์›์„ ํ™œ์šฉํ•˜๋Š” ๋‹ค์–‘ํ•œ LLM ๊ธฐ๋ฐ˜ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ๊ฒฝํ—˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์„ฑ๋Šฅ ๊ฒฉ์ฐจ ์ถ•์†Œ ๋ฐ WebGPU ์ปค๋„ ์ตœ์ ํ™”: ์•„์ง ๋„ค์ดํ‹ฐ๋ธŒ ์„ฑ๋Šฅ๊ณผ์˜ ๊ฒฉ์ฐจ๊ฐ€ ์กด์žฌํ•˜์ง€๋งŒ, MLC-LLM ๋ฐ Apache TVM๊ณผ ๊ฐ™์€ ๋จธ์‹ ๋Ÿฌ๋‹ ์ปดํŒŒ์ผ๋Ÿฌ๋ฅผ ํ†ตํ•ด WebGPU ์ปค๋„์„ ์ตœ์ ํ™”ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ์ง€์†์ ์œผ๋กœ ๊ฐœ์„ ํ•  ์—ฌ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘